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内 容 简 介 


本 书 采取 人 物 对 话 的 形式 ,用 讲 故事 的 方法 ,将 人 力 资源 管理 中 一 些 典型 的 问题 用 
高 级 数据 分 析 的 方法 去 解决 。 

全 书 分 为 8 章 , 第 1 一 2 章 介 绍 人 力 资源 管理 数据 分 析 的 意义 和 数据 分 析 前 的 准备 
工作 ;第 3 章 讲述 回归 分 析 法 在 员工 需求 预测 中 的 应 用 ;第 4 章 讲述 培训 师 评估 分 数 的 
标准 化 ;第 5 章 分 析 薪 酬 公 平 性 ;第 6 章 介 绍 综合 评价 法 在 员工 能 力 评估 中 的 应 用 ;第 7 
章 介 绍 如 何 使 用 Boosting 随机 森林 算法 预测 员工 离职 概率 ;第 8 章 讲 述 如 何 通 过 文本 
分 析 中 的 情感 分 析 法 解读 员工 辞职 报告 。 

本 书 能 够 帮助 人 力 资源 管理 人 员 开阔 眼界 .打开 思维 ,加 深 对 数据 分 析 的 认识 ,促进 
数据 分 析 技 术 在 人 力 资 源 管 理 领域 的 应 用 。 
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笔者 一 直 想 将 概率 统计 、 数 据 挖 掘 等 数据 分 析 的 高 级 方 
法 应 用 到 人 力 资 源 管 理 领 域 。 在 当前 的 信息 化 ` 数 据 化 时 
代 , 人 力 资 源 管理 对 数据 的 依赖 性 相当 强 , 从 招聘 中 的 能 力 
和 素质 测评 ,到 培训 评估 、 绩 效 管理 岗位 分 析 、 劳 动用 工 、 效 
能 分 析 、 薪 酬 管理 等 各 方面 都 需要 进行 数据 分 析 。 但 人 力 资 
源 的 数据 分 析 大 多 是 描述 性 统计 分 析 , 较 少 用 到 高 级 数据 分 析 
技术 ,如 回归 分 析 、 聚 类 分 析 、 因 子 分 析 、 判 别 分 析 、 文 本 挖掘 
等 ,对 数据 的 利用 率 不 高 ,更 缺乏 对 数据 的 有 效 和 深入 挖掘 。 

笔者 一 直 苦于 没有 找到 合适 的 工具 ,直到 接触 R 语言 。 
随 着 了 解 不 断 深入 ,笔者 发 现 R 语言 有 很 多 优点 : 它 摆脱 了 
SPSS 这 类 软件 的 禁 铀 , 即 摆脱 那 种 严格 的 环境 和 刻板 的 分 
析 ;函数 式 的 编程 风格 很 接近 Excel 函数 用 法 ,复杂 的 模型 通 
常 一 两 个 函数 就 能 解决 ,容易 学 习 和 上 和 手 ;拥有 大 量 的 统计 
算法 ,可 以 任意 研究 和 使 用 ; 可 以 绘制 出 生动 美观 的 数据 图 
№. ША R 语言 完全 免费 ,这 对 人 力 资源 管理 专业 人 员 来 说 
非常 重要 ,因为 企业 几乎 不 太 可 能 为 人 力 资源 部 门 专门 配备 
商业 统计 软件 。 
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是 大 数据 时 代 的 人 力 资源 管理 


于 是 本 书 做 了 一 次 大 胆 尝 试 , 即 以 R 语言 为 基础 ,将 概率 统计 、 机 器 
学 习 、 文 本 挖掘 等 大 数据 时 代 流 行 的 数据 分 析 技 术 , 和 人 力 资 源 管理 实践 
结合 在 一 起 ,看 看 有 何 化 学 反应 。 在 此 之 前 , 鲜 见 人 力 资源 管理 专业 人 员 
涉足 这 个 领域 ,在 此 之 后 ,你 会 发 现 原来 人 力 资源 管理 也 可 以 运用 大 数据 
分 析 技 术 , 也 可 以 通过 数据 挖掘 来 发 现 数据 价值 ,也 能 用 机 器 学 习 的 算法 
预测 未 来 可 能 发 生 的 事件 ,还 能 对 文字 内 容 进行 数据 分 析 , 而 这 一 切 在 R 
语言 的 驱动 下 变 得 容易 实现 。 

本 书 的 每 个 案例 都 以 人 力 资源 管理 中 的 现实 情景 为 基础 ,通过 人 物 
对 话 的 方式 来 讲述 。 书 中 虚拟 的 谦 多 顺 公司 在 人 力 资源 管理 方面 出 现 了 
一 些 问 题 ,比如 员工 需求 数量 不 准确 员工 薪酬 满意 度 不 高 ,学 员 对 培训 
师 的 意见 比较 大 .新 员工 离职 率 比 较 高 ` 员 工 能 力 评价 不 够 客观 .离职 沟 
通 出 现 问题 ,等 等 。 人 力 资源 部 经 理 Miss 陈 面 对 这 些 问题 ,采用 数据 分 
析 的 方法 ,帮助 部 门 同 事 逐 个 解决 问题 。 在 这 个 过 程 中 ,你 可 以 了 解 概率 
统计 的 基本 知识 .数据 挖掘 的 经 典 算法 ,以 及 文本 挖掘 中 的 情感 分 析 ,并 
领略 R 语言 的 魅力 。 

本 书 由 于 涉及 统计 学 领域 的 知识 ,还 涉及 R 语言 编程 ,对 人 力 资 源 管 
理 专业 人 员 来 说 有 一 定 难 度 。 为 此 笔者 对 书 中 内 容 做 了 一 些 特别 设计 , 比 
如 必须 讲 的 统计 知识 尽量 详细 并 且 图 文 并 茂 , 所 有 案例 都 提供 R 源 代码 以 
方便 练习 ,等 等 。 如 果 潜 心 阅读 ,并 辅 以 实践 演练 ,相信 会 有 莫大 收获 。 

和 希望 本 书 的 出 版 ,能 够 让 越 来 越 多 的 人 力 资源 管理 专业 人 士 认识 К 
语言 ,运用 高 级 数据 分 析 技 术 来 有 效 解决 企业 中 的 管理 问题 ,更 好 地 发 挥 
人 力 资源 数据 的 价值 。 


为 什么 编写 本 书 


人 力 资 源 管理 源 于 数据 分 析 。20 世纪 初 古典 管理 学 家 弗 雷 德里 
克 ， 温 斯 洛 * 泰勒 通过 实验 研究 如 何 提高 工人 的 劳动 生产 率 ,并 提出 了 


迄今 仍 在 使 用 的 计件 工资 制 . 计 时 工资 制 , 可 算 作 人 力 资源 数据 分 析 的 先 
驱 。 后 来 闵 斯 特 伯 格 、 梅 奥 两 位 学 者 将 心理 学 方法 引入 工业 领域 ,通过 大 
量 实验 ,研究 如 何 提高 工人 效率 ,其 核心 依然 是 对 数据 的 测量 和 分 析 。 所 
以 ,人 力 资源 管理 从 发 展 之 初 就 与 数据 分 析 结 下 不 解 之 缘 。 一 百 多 年 后 
的 今天 ,世界 进入 了 信息 化 ` 数 据 化 时 代 , 但 我 国人 力 资源 管理 却 在 数据 
分 析 领 域 原 地 踏步 ,在 大 数据 门 外 驻 足 不 前 ,仍然 在 汇总 .平均 ` 同 比 \ 环 
EE ,仍然 在 依赖 Excel, 几 乎 没有 将 数据 挖掘 等 高 级 技术 应 用 到 管理 实践 
中 ,去 更 充分 地 挖掘 数据 的 价值 。 这 不 能 不 说 是 一 种 遗憾 ! 

人 力 资源 管理 领域 未 及 时 享用 数据 分 析 技 术 发 展 带 来 的 福利 , 像 那 
些 重要 且 经 典 的 算法 如 判别 分 析 、 机 器 学 习 、 聚 类 分 析 、 因 子 分 析 、 时 间 序 
列 分 析 ,文本 挖掘 等 早已 进入 零售 .金融 ,通信 、 电 子 商 务 以 及 社交 媒体 行 
业 , 并 且 表 现 出 令 人 惊讶 的 作用 ,但 始终 把 人 力 资 源 管理 挡 在 门 外 。 

然而 ,人 力 资源 管理 专业 人 员 学 习 数 据 分 析 的 意愿 并 不 十 分 强烈 。 
根据 弗 鲁 姆 的 理论 ,人 力 资源 管理 专业 人 员 研 究 数 据 分 析 的 动机 强 弱 , 取 
决 于 数据 分 析 能 够 为 工作 带 来 的 价值 大 小 .学 习 的 难度 大 小 ,以 及 学 习 的 
工具 和 环境 的 适宜 程度 。 可 想 而 知 ,在 看 不 到 数据 分 析 带 来 的 价值 ,对 数 
据 分 析 知识 心 存 县 难 , 且 没有 称 手 的 分 析 工 具 时 ,人 力 资源 管理 专业 人 员 
ЖЕЙН A KE ЛЫТ ИЕ AE? 

所 以 ,本 书 尝试 将 数据 分 析 的 高 级 技术 引入 人 力 资源 管理 领域 ,提升 
人 力 资源 管理 专业 人 员 学 习 数 据 分 析 的 动机 水 平 。 首 先 ,用 人 力 资 源 管 
理 专业 人 员 熟 悉 的 情景 编写 案例 ,让 大 家 了 解数 据 分 析 技 术 在 人 力 资 源 
管理 过 程 中 的 作用 和 价值 ;其 次 ,穿插 普及 数据 分 析 的 基础 知识 和 算法 ， 
重点 介绍 当前 数据 分 析 领 域 表现 优异 的 统计 工具 一 一 R 语言 ,并 附送 源 
代码 。 希 望 能 够 唤起 看 到 本 书 的 人 力 资源 管理 同行 对 高 级 数据 分 析 的 
兴趣 。 

当然 ,本 书 只 是 抛砖引玉 。 鉴 于 笔者 视野 狭窄 ,狭隘 地 认为 我 国人 力 
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资源 管理 领域 并 未 真正 涉足 数据 分 析 , 并 未 有 “大 牛 ”出 现 , 实 际 上 这 可 能 
是 错误 的 。 不 排除 有 “牛人 ”早已 进行 深入 的 研究 ,程度 之 深 , 应 用 范围 之 
广 , 超 出 笔者 的 想象 。 若 能 发 现 同行 在 做 同样 的 事情 ,希望 能 够 交流 、 学 
习 , 共 同 促进 和 提升 。 

也 希望 通过 本 书 能 够 进一步 推广 R 语 言 。 笔 者 用 过 不 少 统计 软件 ， 
但 从 未 有 一 款 如 R 语言 那样 让 笔者 着 迷 , 它 几乎 能 满足 笔者 对 数据 分 析 
的 所 有 需求 ,分 析 过 程 简单 快速 ,各 种 算法 随手 牛 来 ,图 形 绘制 变化 万 千 。 
这 么 好 的 统计 工具 ,还 是 免费 的 ,实在 没有 理由 拒绝 ,也 希望 更 多 的 人 能 
够 知道 这 个 工具 ,早早 用 上 。 


本 书 特点 


(1) 创新 性 强 , 内 容 为 人 力 资源 管理 ,数据 分 析 和 有 语言 的 交叉 知识 
领域 。 国 内 首次 以 R 语言 为 工具 ,将 数据 挖掘 、 文 本 挖掘 等 数据 分 析 技 
术 引 入 人 力 资 源 管理 领域 。 

(2) 深入 浅 出 .通俗 易 懂 。 全 书 以 人 力 资源 管理 人 员 ( 简 称 HR) 的 视 
角 为 基础 ,采取 人 物 对 话 方式 ,结合 案例 讲解 数据 分 析 技术 在 人 力 资源 管 
理 实 践 中 的 应 用 。 

(3) 对 HR 来 说 熟悉 度 高 ,代入 感 强 , 认 同感 强 。 书 中 案例 均 以 人 力 
资源 管理 中 的 常见 情景 为 基础 ,涉及 招聘 .培训 薪酬 .员工 关系 管理 等 模 
块 ,对 HR 来 说 接受 程度 高 。 

(4) 阅读 难度 较 低 。 全 书 避 开讲 解 复杂 的 统计 学 概念 .算法 , 避 开 讲 
解 R 语 言 的 数据 结构 .语法 等 内 容 ,重点 介绍 统计 方法 的 应 用 案例 及 其 
效果 ,降低 阅读 难度 。 

(5) 提供 完整 源 代 码 和 数据 。 源 代码 重复 使 用 性 高 ,可 直接 运行 并 
显示 效果 ,易于 操练 ,方便 解读 , 源 代码 经 小 量 修改 后 即 可 用 于 各 类 企业 。 
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本 书 人 物 关 系 图 和 公司 设 定 


1. 人 物 关系 图 


ШЕН ER 


新 本 主管 ЛЖ 


公司 名 称 : 谦 多 顺 集团 股份 有 限 公司 

公司 规模 : РА 20 家 子 公司 ,员工 3 万 余人 

公司 性 质 : 民营 企业 

主 营 业务 : 房地产 、 软 件 开发 .物业 服务 .通信 产品 生产 与 销售 等 
业务 。 


本 书 内 容 


全 书 共 分 8 章 , 各 章 内 容 如 下 。 
第 1 章 : 人 力 资源 数据 分 析 的 意义 。 介 绍 人 力 资 源 数 据 分 析 的 特 
点 、 难 点 以 及 人 力 资源 数据 分 析 和 大 数据 的 关系 。 
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是 大 数据 时 代 的 人 力 资源 管理 


第 2 章 : 数据 分 析 前 的 准备 工作 。 包 括 如 何 选用 数据 分 析 的 工具 ， 
数据 收集 的 工具 和 方法 ,以 及 如 何 整理 数据 。 

第 3 章 : 员工 年 度 需求 预测 。 主 要 介绍 了 需求 预测 所 采用 的 方法 并 
分 析 整 个 过 程 。 

第 4 章 : 培训 师 评估 。 介 绍 如 何 建立 企业 内 部 培训 讲师 授课 评分 数 
据 库 ,在 此 基础 上 通过 计算 机 标准 分 建立 常 模 ,绘制 正 态 分 布 图 ,用 定量 
化 的 方法 选择 讲师 ,并 进行 培训 评估 。 

第 5 章 : 薪酬 公平 性 分 析 。 讲 解 如 何 运用 薪资 结构 图 .基尼 系数 、 
Compa 指标 .薪酬 公平 感 计量 模型 来 分 析 员 工薪 酬 公平 性 。 

第 6 章 : 员工 综合 能 力 评估 。 讲 解 通过 综合 评价 法 评估 员工 综合 
能 力 。 

第 7 章 : 员工 离职 倾向 分 析 。 介 绍 了 如 何 用 Boosting、 随 机 森林 等 
机 器 学 习 算 法 预测 员工 未 来 一 年 内 的 离职 概率 。 

第 8 章 : 员工 辞职 报告 的 情感 分 析 。 介 绍 用 文本 挖掘 中 的 情感 分 析 
技术 分 析 员工 辞职 报告 。 
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人 力 资源 数据 分 析 的 意义 


导语 : 对 人 力 资源 管理 专业 人 员 来 说 ,数据 分 析 是 一 门 
新 技能 ,而 学 习 这 种 新 技能 需要 投入 成 本 ,包括 时 间 成 本 、 资 
金成 本 等 。 了 既然 要 投入 成 本 ,自然 希望 获得 回报 ,并 且 明 白 
获得 回报 的 难度 。 按 照 弗 洛 姆 的 期 望 理论 ,这 两 个 因素 结合 
在 一 起 才能 产生 学 习 动 机 。 本 章 围 绕 这 两 个 因素 ,阐述 人 力 
资源 管理 专业 人 员 为 什么 需要 学 习 数 据 分 析 , 学 习 获 得 的 回 
报 是 什么 ,学 习 的 难度 又 如 何 。 
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E ARM КА ДАЛ Ж Еш 


m 人 力 资源 管理 为 何 需要 数据 分 析 


老 梁 : 经 理 , 您 常 说 人 力 资源 管理 要 重视 数据 分 析 , 可 我 觉得 人 力 
资源 管理 在 实际 工作 中 并 不 缺少 数据 分 析 啊 。 您 看 我 们 做 薪酬 、 管 绩 
效 、 建 档案 、 搞 培训 都 是 在 和 数据 打交道 ,每 月 、 每 季 、 每 年 都 会 出 分 析 
报表 ,这 些 不 就 是 数据 分 析 吗 ? 咱们 已 经 在 做 了 ,为 什么 您 还 强调 数据 
分 析 呢 ? 

Miss 陈 : 你 说 的 这 些 工作 自然 是 在 和 数据 打交道 ,也 是 数据 分 析 ， 
但 主要 是 对 人 力 资源 各 个 管理 模块 产生 的 数据 进行 简单 的 分 析 运 算 , 如 
汇总 ,计算 均值 .总 和 等 ,再 通过 横向 对 比 、 纵 向 对 比 等 方法 从 不 同 维度 进 
行 比较 分 析 , 然 后 形成 报表 ,做 成 报告 。 实 际 上 ,这 些 工 作 属 于 数据 分 析 
的 较 浅 层次 。 

老 梁 : 较 浅 层次 ? 您 的 意思 是 人 力 资 源 管理 数据 分 析 还 分 层次 吗 ? 

Miss Ж. 是 的 ,数据 分 析 的 层次 和 我 们 人 力 资 源 管 理 的 发 展 阶 段 有 
关系 ,你 知道 人 力 资源 管理 发 展 的 三 个 阶段 吗 ? 

老 梁 : 知道 ,人 力 资源 管理 历经 了 三 个 阶段 ,分 别 是 人 事 管 理 阶段 、 
单 向 人 力 资 源 管 理 阶段 和 战略 人 力 资源 管理 阶段 。 

Miss 陈 : 其 实 不 同 管理 阶段 对 数据 分 析 的 需求 不 同 , 人力 资 源 管理 
发 展 的 三 个 阶段 分 别 对 应 了 三 个 层次 的 数据 分 析 需 求 ,具体 来 说 有 以 下 


三 点 。 

(1) 人 事 管 理 阶段 : 这 个 阶段 需要 对 基本 数据 进行 整理 .统计 ,比如 
计算 薪酬 记录 考勤 .统计 加 班 信息 、 分 类 统计 人 员 信 息 、 编 制 薪 资 报 表 
等 ,基本 上 就 是 对 原始 数据 进行 普通 预算 ,这 属于 数据 粗 加 工 。 

O) 单 向 人 力 资源 管理 阶段 : 这 个 阶段 在 对 数据 粗 加 工 的 基础 上 , 需 
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要 统计 更 为 复杂 的 指标 ,用 于 分 析 和 反映 人 力 资 源 管 理 的 水 平 ,诊断 管理 
的 健康 程度 。 这 些 指标 涉及 人 力 资 源 各 个 模块 ,比如 招聘 成 功率 、 员 工 流 
动 率 、 培 训 百 分 比 、 工 作 负 荷 率 、 企 业 年 轻 化 程度 .劳动 生产 率 , 等 等 。 经 
过 几 十 年 的 发 展 , 人 们 总 结 了 不 少 指标 ,从 类 别 上 划分 ,大 致 可 以 分 为 人 
力 资源 效率 指标 、 人 力 资源 发 展 指标 .人力 资 源 描述 指标 .人 力 资源 健康 
指标 四 类 ,还 形成 了 人 力 资源 统计 学 、 人 力 资源 会 计 学 等 学 科 。 这 个 阶段 
开始 对 数据 进行 精 加 工 , 主 要 是 研究 和 提炼 管理 指标 ,通过 计算 各 种 指标 
来 进行 数据 分 析 。 

(3) 战略 人 力 资源 管理 阶段 : 这 个 阶段 将 人 力 资源 效能 与 公司 发 展 
战略 结合 起 来 ,形成 人 力 资源 发 展 战略 ,进入 战略 管理 阶段 。 这 个 阶段 需 
要 分 析 人 力 资本 的 投入 和 回报 、 人 力 资源 在 企业 的 影响 力 、 人 力 资源 如 何 
促进 公司 战略 目标 的 实现 等 更 高 层次 的 命题 。 这 个 层次 需要 更 为 复杂 的 
统计 指标 和 分 析 技 术 ,在 分 析 指 标 上 重点 研究 人 力 资 本 在 企业 中 发 挥 的 
作用 ,并 能 够 根据 需要 建立 管理 分 析 模 型 ,在 分 析 技 术 上 需要 采用 更 为 高 
级 的 概率 统计 分 析 方 法 。 


老 梁 : 原来 不 同 的 发 展 阶 段 对 人 力 资源 数据 分 析 的 需求 是 不 同 的 ， 
看 来 我 对 数据 分 析 的 理解 还 不 够 啊 ! 

Miss 陈 : 所 以 我 们 也 要 与 时 俱 进 ,结合 当前 人 力 资源 管理 的 发 展 趋 
势 , 加 强 对 数据 分 析 知 识 .技能 .工具 的 学 习 , 提 高 数据 分 析 水 平 ,将 数据 
分 析 的 知识 和 技术 应 用 到 人 力 资源 管理 实践 中 去 ,提升 我 们 的 管理 水 平 ， 
促进 公司 战略 目标 的 实现 。 

老 梁 : 经 理 , 您 说 得 对 ,不 过 关于 数据 分 析 对 人 力 资源 管理 工作 的 必 
要 性 ,您 能 讲 得 再 详细 点 吗 ? 咱 也 想 加 深 对 数据 分 析 的 认识 和 理解 。 

Miss к: 好 的 ,下 面 我 就 详细 讲 一 下 人 力 资源 数据 分 析 的 意义 。 
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Miss 陈 : 老 梁 ,请 问 你 现在 的 工作 可 以 不 用 电脑 吗 ? 

老 梁 : 经 理 , 根 本 离 不 开 电 脑 啊 。 不 仅 是 我 ,几乎 每 个 部 门 每 个 员工 
的 工作 都 离 不 开 电 脑 。 上 个 月 初 公司 停 了 一 天 电 , 结 果 各 个 部 门 的 工作 
都 停滞 了 ,台式 电脑 开 不 了 机 ,内 部 服务 器 瘫痪 ,笔记 本 电脑 即使 能 用 也 
打 不 开 OA( 办 公 自 动 化 )。 于 是 大 家 休息 了 一 天 , 啥 工作 都 没 干 成 。 

Miss 陈 : 这 说 明 我 们 的 工作 对 电脑 的 依赖 性 很 强 , 超 过 了 以 往 任何 
时 候 。 我 们 已 经 习惯 了 通过 办 公 软 件 和 各 种 管理 系统 来 开展 工作 。 比 
如 ,在 人 力 资源 管理 方面 ,我们 就 启用 了 若干 信息 化 系统 来 辅助 管理 , 包 
括 员工 档案 管理 系统 .培训 管理 系统 、 在 线 培训 系统 .员工 素质 测评 系统 、 
绩效 考核 系统 等 。 我 们 对 这 些 管理 系统 产生 了 依赖 性 ,而 这 种 依赖 性 实 
际 上 也 成 为 了 当前 人 力 资源 管理 的 特征 , 照 目前 的 趋势 来 看 ,这 些 管理 系 
统 还 会 逐步 向 移动 终端 发 展 。 

计算 机 管理 系统 每 天 都 会 产生 大 量 数据 ,如 何 充分 利用 这 些 数 据 来 
提升 人 力 资 源 管理 水 平 ,已 成 为 人 力 资源 管理 的 重要 课题 。 这 些 数据 就 
像 是 原材料 ,我 们 现在 只 是 进行 了 粗 加 工 , 实 际 上 可 以 进行 精 加 工 , 可 以 
更 加 有 效 地 利用 这 些 数据 来 为 我 们 所 用 ,给 我 们 提供 更 有 价值 的 信息 。 

现代 计算 机 技术 的 发 展 . 大 数据 技术 的 发 展 ` 数 据 挖 掘 技术 的 发 展 ， 
以 及 数据 分 析 工具 的 普及 ,都 为 高 级 数据 分 析 技 术 在 人 力 资源 管理 领域 
的 应 用 提供 了 良好 的 土壤 ,也 对 人 力 资源 管理 工作 提出 了 更 高 的 要 求 。 
那些 看 上 去 复杂 、 神 秘 的 数据 分 析 技 术 和 昂贵 的 数据 分 析 软 件 曾 经 阻碍 
了 数据 分 析 技术 在 管理 领域 的 广泛 应 用 ,但 是 现在 形势 已 经 发 生变 化 , 数 
据 分 析 的 技术 和 工具 不 再 是 高 高 在 上 遥 不 可 攀 。 现 代 人 力 资源 管理 领域 
应 在 实际 工作 中 充分 利用 这 些 技 术 和 工具 ,创新 管理 手段 ,提升 管理 水 
平 。 所 以 ,可 以 说 数据 分 析 是 人 力 资源 管理 发 展 的 趋势 。 
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老 梁 : 经 理 ,要 达到 您 说 的 更 高 层次 的 数据 分 析 水 平 ,可 能 需要 学 习 
很 多 计算 机 和 统计 学 知识 ,我 担心 这 会 阻碍 人 力 资源 管理 人 员 去 应 用 数 
据 分 析 技 术 。 

Miss Ж: 对 人 力 资源 管理 人 员 来 说 ,要 额外 学 习 计 算 机 和 统计 学 知 
识 确实 有 难度 ,但 对 于 这 些 知 识 其 实 只 需要 学 习 基 础 内 容 就 可 以 了 ,而 基 
础 内 容 的 难度 并 不 大 。 比 如 学 习 R 语言 ,只 需要 掌握 语法 和 数据 结构 等 
基础 知识 ,就 可 以 开始 应 用 了 。R 基本 上 是 采用 函数 编程 ,很 多 算法 模型 
往往 就 是 那 几 个 函数 ,设置 一 下 参数 就 可 以 建 模 。 用 了 之 后 你 会 发 现 和 
Excel 的 函数 用 法 差不多 ,上 手 应 该 会 比较 快 。 统 计 学 方面 的 学 习 也 不 
用 去 研究 算法 原理 ,可 以 把 算法 当 作 黑 匣子 ,只 需要 学 习 算 法 的 输入 、 输 
出 和 适用 条 件 等 基础 内 容 就 足够 了 ,这样 其 实 比较 简单 。 

老 梁 : 学 习 基 础 知识 尺 怕 也 要 花 不 少时 间 呢 ! 

Miss 陈 : 学 习 当 然 需要 付出 时 间 和 精力 ,不 过 一 旦 迈 入 数据 分 析 的 
世界 ,你 会 发 现 人 力 资源 管理 迈 上 了 一 个 新 的 层次 ,人 力 资源 的 管理 水 平 
和 技术 水 平 将 显著 提高 ,人 力 资源 管理 人 员 的 技术 刚性 也 将 显著 提高 。 
到 时 你 就 会 明白 这 种 付出 是 非常 值得 的 。 

ER: 经 理 , 您 说 的 技术 刚性 是 什么 意思 ? 

Miss 陈 : 刚性 本 来 指 物 理 属性 ,是 物体 承受 外 来 压力 但 性 质 不 发 生 
改变 的 属性 。 这 里 说 的 技术 刚性 , 指 技术 能 力 达到 一 定 高 度 而 不 受 外 部 
变化 影响 的 能 力 , 也 就 是 说 技术 能 力 达 到 了 某 种 境界 而 表现 出 不 可 替 
КЕ. 

老 梁 : 明白 了 ,您 的 意思 是 数据 分 析 能 够 提高 人 力 资源 管理 人 员 的 
技术 能 力 , 提 高 人 力 资源 管理 岗位 的 不 可 替代 性 。 

Miss к: 是 的 。 你 在 公司 时 间 也 不 短 了 吧 ,应 该 看 到 这 几 年 常 有 人 
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员 调 到 人 力 资源 管理 岗位 工作 ,这 些 人 员 的 专业 出 身 五 花 八 门 ,市 场 、 财 
务 .经 营 管理 .综合 、 技 术 的 都 有 ,给 人 的 感觉 是 什么 人 都 能 搞 人 力 资源 管 
理工 作 , 这 是 什么 原因 造成 的 呢 ? 

老 梁 : 咱 人 力 资 源 管理 的 工作 给 别人 的 感觉 是 技术 门槛 低 , 谁 都 可 
以 来 做 。 这 和 财务 工作 的 对 比 最 明显 ,不 懂 财 务 知识 根本 没 法 开展 工作 ， 
但 不 懂 人 力 资源 管理 知识 也 可 以 开展 工作 。 

Miss 陈 : 这 就 是 人 们 对 人 力 资源 管理 的 刻板 印象 ,认为 人 力 资源 管 
理 专业 门槛 低 , 入 门 容易 ,人 人 都 可 以 做 。 但 实际 上 我 们 都 知道 ,人 力 资 
源 管理 涉及 的 知识 范围 非常 广 , 能 力 要 求 也 非常 高 。 你 看 咱 部 门 的 本 科 、 
研究 生 占 比 ,是 全 公司 所 有 部 门 中 最 高 的 ,这 在 某 种 程度 上 也 说 明了 人 力 
资源 管理 对 人 的 能 力 要 求 很 高 。 

要 改变 人 们 的 刻板 印象 是 相当 难 的 ,数据 分 析 恰 好 可 以 成 为 改变 印 
象 的 重要 元 素 。 这 是 因为 数据 分 析 代 表 了 较 高 的 知识 和 技术 含量 ,具备 
技术 刚性 ,一旦 将 人 力 资 源 管理 与 数据 分 析 技术 结合 起 来 , 某 种 程度 上 也 
提高 了 人 力 资源 管理 本 身 的 技术 刚性 。 

ER: 嗯 ,明白 了 ,看 来 学 习 数据 分 析 对 人 力 资源 管理 人 员 来 说 是 非 
常 必要 的 。 


118 数据 分 析 能 够 为 人 力 资源 管理 者 提供 强 有 力 的 决策 
支持 


Miss Ж: 当然 ,人 力 资源 的 数据 分 析 最 重要 的 作用 还 是 给 企业 管理 
层 提供 决策 依据 。 

老 梁 : 就 是 说 将 分 析 结 果 提供 给 公司 领导 去 做 决策 吗 ? 

Miss Ж: 是 的 ,这 点 非常 重要 。 如 果 数 据 分 析 只 用 于 人 力 资源 管理 
本 身 ,只 用 于 提高 人 力 资源 管理 的 水 平 , 则 显得 狭隘 了 。 若 数据 分 析 能 给 
管理 层 提供 有 用 的 信息 ,能 够 影响 和 帮助 公司 做 出 正确 的 经 营 决 策 , 才 真 


第 1 章 人 力 资源 数据 分 析 的 意义 量 


正体 现 了 数据 分 析 的 价值 。 

比如 ,我 们 分 析 各 个 分 公司 的 人 力 资源 管理 效能 ,分 析 分 公司 在 人 力 
资源 管理 投入 和 产 出 上 的 差异 ,再 结合 行业 对 标 数 据 ,对 下 一 年 的 人 员 配 
置 .工资 分 配 提出 相应 的 优化 方案 ,将 分 析 和 方案 提供 给 管理 层 , 那 么 管 
理 层 就 可 以 根据 这 些 信息 决定 是 否 调整 公司 的 经 营 指标 和 预算 ,更 合理 
地 给 分 公司 下 达 经 营 任务 等 。 这 其 中 数据 分 析 的 内 容 就 成 为 了 重要 的 决 
策 依据 。 

老 梁 : 嗯 ,如 果 能 引起 管理 层 的 重视 ,能 够 给 管理 层 提 供 有 效 的 信 
息 , 那 也 不 枉 咱们 花 时 间 去 学 习 这 些 知识 啊 。 


114 数据 分 析 是 人 力 资 源 管 理 的 刚性 需求 


老 梁 : 其 实 咱们 天 天 都 在 接触 数据 ,基本 上 各 种 总 结 .报告 都 会 用 到 
数据 分 析 , 虽 然 目 前 数据 分 析 的 层次 还 有 待 提 高 ,但 感觉 数据 分 析 已 经 是 
工作 的 一 部 分 了 。 

Miss Ж. 的 确 是 这 样 ,实际 上 我 们 的 工作 根本 离 不 开 数 据 。 人 力 资 
源 管 理 六 大 模块 中 ,人 力 资源 规划 、 招 聘 与 配置 ,培训 与 开发 .绩效 管理 、 
薪酬 福利 管理 等 模块 都 要 以 数据 为 基础 ,这 些 模 块 每 天 都 会 产生 大 量 数 
据 , 加 上 各 种 管理 系统 及 其 存储 的 数据 ,可 以 说 人 力 资 源 管理 人 员 就 是 围 
绕 数 据 在 干 活 。 

老 梁 : 是 啊 , 我 们 跟 您 汇报 工作 时 如 果 没 有 数据 来 支撑 内 容 , 都 不 好 
意思 拿 出 手 ,没有 数据 分 析 的 报告 也 没有 多 少 说 服 力 。 您 看 每 个 季度 公 
司 的 经 营 分 析 会 ,都 有 人 力 资源 分 析 , 其 中 包含 大 量 的 数据 分 析 , 如 人 工 
成 本 工资 总 额 、 人 员 流 动情 况 等 ,都 需要 用 数据 来 说 话 。 

Miss Ж: 所 以 进行 数据 分 析 并 且 不 断 提升 数据 分 析 水 平 是 人 力 资 
源 管理 的 刚性 需求 ,是 我 们 必须 要 做 的 工作 。 


7 


8 


E ARAB UW A ЖЕ Еш 


m. 人 力 资源 数据 分 析 有 什么 特点 


121 数据 分 散 性 


Miss 陈 : 不 过 咱们 人 力 资源 管理 用 到 的 数据 ,可 不 是 轻易 就 能 得 
到 的 。 

老 梁 : 啊 ?! 咱们 的 数据 不 都 是 现成 的 吗 ,您 看 像 薪酬 培训、 绩效 这 
些 数据 都 在 人 力 资源 管理 系统 中 ,要 什么 数据 都 可 以 导出 来 ,应 该 说 还 是 
比较 容易 得 到 的 吧 。 

Miss 陈 : 这 些 数 据 自 然 可 以 轻松 得 到 ,因为 这 是 我 们 的 业务 数据 ， 
但 是 进行 人 力 资 源 的 数据 分 析 需 要 的 不 只 是 这 些 数 据 。 比 如 ,我 们 要 做 
人 力 资源 效能 分 析 , 就 需要 公司 经 营 方 面 的 数据 ,才能 计算 劳动 生产 率 、 
人 工 成 本 创利 、 人 工 成 本 创收 等 指标 ;如 果 要 做 薪酬 公平 性 分 析 ,就 需要 
了 解 外 部 行业 薪酬 数据 ;如 果 要 进行 人 员 流 动 性 分 析 , 就 需要 知道 行业 或 
岗位 流动 率 对 标 数 据 。 这 些 数 据 可 不 是 那么 轻松 就 能 得 到 的 ,因为 它们 
分 散在 各 个 地 方 。 

老 梁 : 噢 ,这 么 说 来 的 确 是 这 样 。 经 营 数据 要 到 财务 部 市场 部 去 收 
集 , 外 部 数据 要 在 网 络 上 搜索 ,或 者 向 咨询 公司 购买 。 这 么 说 来 人 力 资源 
分 析 所 需要 的 数据 是 挺 分 散 的 。 

Miss 陈 : 不 仅 如 此 ,即便 是 在 咱们 部 门 内 部 ,数据 也 是 分 散 的 。 例 
如 ,招聘 时 应 聘 者 的 素质 测评 分 数 得 找 小 肖 , 人 工 成 本 、 工 资 总 额 .工资 使 
用 进度 等 数据 得 找 小 姚 ,培训 记录 、 绩 效 考核 的 数据 得 找 小 曾 。 虽 然 咱们 
有 人 力 资 源 管 理 系统 ,但 培训 、 招 聘 等 系统 是 独立 的 ,薪酬 数据 由 于 需要 
保密 也 只 能 由 专人 管理 ,所 以 我 们 部 门 内 部 的 数据 也 是 分 散 的 。 


第 1 章 人 力 资源 数据 分 析 的 意义 量 


老 梁 : 是 啊 , 每 次 做 经 验 分 析 我 都 得 找 小 肖 、 小 姚 \ 小 曾 拿 数据 ,要 花 
不 少时 间 才 能 集 齐 数据 。 

Miss Ж: 人 力 资源 数据 分 析 的 特点 之 一 就 是 数据 分 散 性 。 我 们 需 
要 的 数据 都 分 散在 相关 人 员 、 相 关 部 门 或 者 外 部 网 络 、 机 构 中 ,在 分 析 时 
需要 花 不 少 力气 来 收集 、 整 理 。 特 别 是 经 营 数 据 ,涉及 市 场 .财务 等 部 门 ， 
这 些 部 门 可 能 会 出 于 某 些 原因 拒绝 提供 数据 ,所 以 数据 收集 的 难度 不 小 ， 
即使 收集 了 也 不 一 定 能 获得 理想 的 效果 ,给 我 们 进行 数据 分 析 带 来 了 一 
定 的 难度 。 


122 数据 相关 性 


Miss 陈 : 人 力 资 源 数据 分 析 的 另 一 个 特点 是 数据 相关 性 。 

老 梁 : 相关 性 是 不 是 指数 据 之 间 的 关联 性 呢 ? 

Miss Ж: 是 的 ,这 种 相关 性 体现 在 业务 数据 内 部 相关 、 与 经 营 数据 
相关 ,与 外 部 数据 相关 等 方面 。 

比如 ,人 力 资源 的 业务 数据 中 ,培训 、 薪 酬 绩效 数据 都 是 基于 员工 关 
联 的 ,是 员工 产生 的 数据 ,彼此 是 相互 联系 的 。 

人 力 资源 数据 也 受到 经 营 数据 的 影响 ,比如 公司 经 营 效益 好 时 ,员工 
薪酬 会 上 升 ,培训 费用 会 增加 ,可 能 会 多 招聘 员工 ;而 经 营 效益 不 好 时 , 则 
员工 薪酬 .培训 费用 下 降 的 可 能 性 较 大 ,还 可 能 会 裁员 ,这 说 明 人 力 资源 
数据 和 经 营 数据 是 也 是 相关 性 的 。 

老 梁 : 明白 了 ,经 理 ,我 来 说 说 外 部 数据 的 相关 性 吧 。 我 想到 一 点 ， 
我 们 的 薪酬 水 平 ` 人 工 成 本 等 数据 和 政府 发 布 的 社 平 工资 .最 低 工资 T 
资 指 导线 等 外 部 数据 是 相关 的 ,比如 社 平 工资 上 升 ,那么 员工 的 社保 、 公 
积 金 的 基数 就 会 调整 ,会 直接 影响 到 公司 的 人 工 成 本 ,这 点 就 体现 了 人 力 
资源 数据 与 外 部 数据 之 间 的 相关 性 。 

Miss 陈 : 说 得 很 好 。 
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123 非 标准 化 数据 


Miss 陈 : 人 力 资源 数据 分 析 还 有 个 特点 ,这 个 特点 会 让 我 们 特别 

ER: 是 什么 特点 呢 ? 

Miss 陈 : 人 力 资源 数据 缺乏 统一 表征 ,从 统计 指标 、 统 计 口径 到 计 
算 公式 都 缺少 统一 的 标准 。 这 个 特点 和 财务 数据 形成 了 鲜明 对 比 。 财 务 
数据 标准 化 程度 相当 高 ,比如 常见 的 资产 负债 表 、 利 润 表 、 现 金 流量 表 这 
三 张 报表 的 统计 指标 口径 .计算 公式 都 是 有 统一 标准 的 ,每 家 企业 都 按 
照相 同 标准 来 计算 和 分 析 。 对 比 起 来 ,人 力 资源 的 数据 就 显得 寒 雁 了 
不 少 。 

ER: 咱们 的 劳动 生产 率 、 人 均 创利 、 百 元 人 工 成 本 创利 、 百 元 人 工 
成 本 创收 等 指标 都 是 标准 口径 的 数据 啊 。 

Miss Ж: 不 然 。 说 起 来 人 力 资源 统计 指标 挺 多 的 ,除了 你 说 的 这 些 ， 
还 有 人 工 成 本 投入 产 出 比 、 企 业 劳 动 分 配 率 、 人 事 费 用 率 等 , 算 下 来 也 有 
百 十 来 个 指标 ,涉及 人 力 资源 的 各 个 模块 。 但 是 这 些 指标 并 没有 形成 统 
一 标准 ,其 统计 口径 、 计 算 方式 在 不 同 的 企业 或 多 或 少 有 些 差 异 。 

首先 是 统计 指标 没有 标准 。 比 如 ,分 析 人 工 成 本 投入 和 产 出 , 既 可 以 
用 百 元 人 工 成 本 创利 、 百 元 人 工 成 本 创收 ,也 可 以 用 劳动 分 配 律 、 人 事 费 
用 率 、 人 工 成 本 占 总 成 本 费用 比 等 指标 ,具体 用 哪些 指标 需要 企业 自己 选 
择 , 所 以 不 同 企业 可 能 有 不 同 算法 。 

其 次 是 统计 口径 没有 标准 。 比 如 ,最 常见 的 劳动 生产 率 , 有 些 企业 的 
统计 口径 是 以 与 公司 签订 了 劳动 合同 的 员工 来 计算 ,有 些 企业 则 会 将 派 
遗 员工 合并 计算 ,还 有 些 企业 可 能 会 将 外 包 业 务 的 员工 也 统计 进来 。 

老 梁 : 咱们 人 力 资 源 的 数据 确实 存在 这 种 问题 ,统计 指标 倒是 多 ,但 
选用 哪些 指标 ,用 什么 口径 来 统计 ,每 个 企业 的 做 法 可 能 都 不 同 ,这 的 确 


#1# ”人力 资源 数据 分 析 的 意义 是 


是 一 个 让 人 头疼 的 问题 。 


图 大 数据 和 人 力 资源 管理 的 关系 


131 人 力 资 源 数 据 是 大 数据 吗 


ER: 经 理 ,现在 不 是 已 经 进入 大 数据 时 代 了 吗 , 那 么 人 力 资 源 的 数 
据 分 析 属 于 大 数据 吗 ,能 应 用 大 数据 的 分 析 方 法 吗 ? 

Miss Ж: 人 力 资源 的 数据 还 算 不 上 大 数据 ,至 少 在 咱们 公司 还 没 达 
到 这 个 量 级。 大 数据 的 特点 是 数据 量 大 ,达到 TB 甚至 PB 级别 。1TB 的 
理论 值 等 于 1 024GB, 你 想 想 咱们 公司 的 人 力 资源 数据 有 这 么 大 的 体 量 
吗 ? 大 数据 要 用 专门 的 工具 来 管理 和 分 析 , 比 如 用 Hadoop( 分 布 式 系统 
架构 ) 来 管理 ,而 我 们 的 数据 更 多 是 用 Excel 来 管理 ,从 这 点 上 看 我 们 公 
司 的 人 力 资源 数据 也 不 是 大 数据 。 

老 梁 : 哦 ,看 来 咱们 没 跟 上 大 数据 的 趋势 啊 ! 

Miss 陈 : 虽然 咱们 的 数据 量 级 算 不 上 大 数据 ,但 也 可 以 跟 上 大 数据 
的 步伐 ,咱们 做 不 到 形似 ,但 可 以 做 到 神似 。 


132 大 数据 技术 可 以 用 在 人 力 资源 管理 上 吗 


老 梁 : 您 不 是 说 咱们 的 数据 算 不 上 大 数据 吗 , 那 怎 么 能 做 到 神似 呢 ? 

Miss 陈 : 这 和 大 数据 的 特点 有 关系 ,我 们 先 来 看 看 大 数据 的 特点 
吧 。 大 数据 包括 五 个 基本 方面 的 内 容 。 

(1) 数据 挖 气 算 法 : 大 数据 分 析 的 理论 核心 就 是 数据 挖 握 算法 ,各 种 
数据 挖 气 的 算法 基于 不 同 的 数据 类 型 和 格式 才能 更 加 科学 地 呈现 出 数据 
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是 大 数据 时 代 的 人 力 资源 管理 


本 身 具备 的 特点 ,也 正 是 因为 使 用 这 些 被 全 世界 统计 学 家 所 公认 的 各 种 
统计 方法 ,才能 深入 数据 内 部 ,挖掘 出 数据 的 价值 ;也 正 是 因为 有 这 些 数 
据 挖 气 的 算法 ,才能 更 快速 地 处 理 大 数据 。 如 果 一 个 算法 要 花 上 好 几 年 
才能 得 出 结论 , 那 大 数据 的 价值 也 就 无 从 说 起 了 。 

(2) 预测 分 析 能 力 : 大 数据 分 析 最 重要 的 应 用 领域 之 一 就 是 预测 性 
分 析 , 从 大 数据 中 挖掘 出 数据 的 特点 ,建立 科学 的 模型 ,之 后 便 可 以 通过 
模型 带 入 新 的 数据 ,从 而 对 可 能 发 生 的 事情 进行 预测 。 

(3) 可 视 化 分 析 : 大 数据 分 析 的 使 用 者 有 大 数据 分 析 专家 ,同时 还 有 
普通 用 户 , 但 是 他 们 二 者 对 于 大 数据 分 析 最 基本 的 要 求 就 是 可 视 化 分 析 ， 
因为 可 视 化 分 析 能 够 直观 地 呈现 大 数据 的 特点 ,同时 能 够 非常 容易 被 读 
者 所 接受 ,就 如 同 看 图 说 话 一 样 简单 明了 。 

(4) 数据 质量 和 数据 管理 : 大 数据 分 析 离 不 开 数 据 质 量 和 数据 管理 ， 
高 质量 的 数据 和 有 效 的 数据 管理 ,无 论 是 在 学 术 研 究 还 是 在 商业 应 用 领 
域 ,都 能 够 保证 分 析 结 果 的 真实 性 和 有 价值 。 

(5) 语义 引擎 : 大 数据 分 析 广 泛 应 用 于 网 络 数据 挖 据 , 可 从 用 户 的 搜 
索 关 键 词 、 标签 关 键 词 或 其 他 输入 语义 ,分 析 、 判 断 用 户 需求 ,从 而 实现 更 
好 的 用 户 体 验 和 广告 匹配 。 


明白 了 吗 ? 数据 挖掘 算法 、 预 测 分 析 能 力 、 可 视 化 分 析 这 三 项 其 实 
是 大 数据 的 精髓 ,是 反映 数据 价值 的 关键 。 通过 数据 挖掘 、 预 测 和 呈 
现 , 才 能 充分 发 挥 数据 的 价值 。 而 这 三 项 其 实 和 数据 的 大 小 没有 太 大 
关系 ,即便 是 咱们 公司 的 小 数据 ,也 可 以 进行 数据 挖掘 、 预 测 分 析 和 可 
视 化 。 

老 梁 : 哦 ,这 是 用 了 大 数据 的 思想 。 

Miss к: 是 的 。 咱 们 再 从 技术 上 看 一 下 吧 ,大 数据 用 到 的 技术 包括 
以 下 几 个 方面 。 
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(1) 数据 采集 : 将 分 布 的 . 异 构 数 据 源 中 的 数据 如 关系 数据 .平面 数 
据 文 件 等 抽取 到 临时 中 间 层 后 进行 清洗 、 转 换 、 集 成 ,最 后 加 载 到 数据 仓 
库 或 数据 集 市 中 ,成 为 联机 分 析 处 理 、 数 据 挖 气 的 基础 。 

(2) 数据 存 取 : 存 取 数据 的 工具 包括 关系 数据 库 NOSQL( 泛 指 非 关 
系 型 数据 库 ) 等 。 

(3) 基础 架构 : 云 存 储 、 分 布 式 文件 存储 等 。 

(4) 数据 处 理 : 通过 自然 语言 处 理 让 计算 机 “理解 ”自然 语言 。 

(5) 统计 分 析 : 假设 检验 、 显 著 性 检验 、 差 异 分 析 、 相 关 分 析 、T 检验、 
方差 分 析 、 卡 方 分 析 、 偏 相关 分 析 、 距 离 分 析 、 回 归 分 析 、 简 单 回归 分 析 、 多 
元 回归 分 析 、 逐 步 回归 、 回 归 预 测 与 残 差分 析 、 岭 回归 、logistic 回归 分 析 、 
曲线 估计 、 因 子 分 析 、 聚 类 分 析 、 主 成 分 分 析 、 因 子 分 析 、 快 速 聚 类 法 与 聚 
类 法 、 判 别 分析 、 对 应 分 析 、 多 元 对 应 分 析 ( 最 优 尺度 分 析 )、Bootstrap 技 

(6) 数据 挖掘: 分 类 、 估 计 、 预 测 、 相 关 性 分 组 或 关联 规则 、 聚 类 、 描 述 
和 可 视 化 ,复杂 数据 类 型 挖掘 (Text，Web ,图 形 图 像 ,视频 ,音频 等 )。 

(7) 模型 预测 : 预测 模型 ,机 器 学 习 、 建 模仿 真 。 

(8) 结果 呈现 : 云 计算 .标签 云 . 关 系 图 等 。 


以 上 大 数据 所 用 到 的 技术 中 ,数据 处 理 、 统 计 分 析 、 数 据 挖掘 、 模 型 预 
测 ,结果 呈现 都 可 以 用 在 小 数据 上 ,也 就 是 说 可 以 用 于 人 力 资源 数据 分 
Ж. 

老 梁 : 这 么 看 来 ,虽然 大 数据 的 特点 是 数据 量 巨大 ,但 是 数据 处 理 、 
统计 分 析 数据 挖掘 、 模 型 预测 、 结 果 呈 现 等 技术 并 不 是 大 数据 专用 。 明 
白 了 ,咱们 的 确 可 以 借鉴 大 数据 的 思想 和 技术 ,用 于 人 力 资源 的 数据 分 
析 , 实 际 上 还 是 赶 上 了 大 数据 的 潮流 啊 。 

Miss К: 是 的 。 
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图 人 力 资源 数据 分 析 的 难点 


141 取 数 难 


Miss 陈 : 人 力 资源 的 数据 分 析 还 存在 一 些 难点 ,这 些 难 点 会 对 我 们 
的 数据 分 析 工 作 造 成 障碍 。 

老 梁 : 是 什么 难点 呢 ? 

Miss 陈 : 首先 是 收集 数据 存在 一 定 难 度 。 之 前 说 了 人 力 资源 数据 
具有 分 散 性 ,这 种 分 散 性 导致 了 收集 数据 存在 困难 。 比 如 ,我 们 进行 人 
力 资源 效能 分 析 的 时 候 , 需 要 收集 公司 的 经 营 数 据 , 包 括 合 同 量 、 工 作 
量 、 收 入 、 利 润 等 数据 ,如 果 要 做 预测 分 析 还 需要 历史 经 营 数据 ,这 需要 
向 市 场 部 和 财务 部 取 数 ,需要 这 两 个 部 门 的 配合 和 支持 ,而 且 这 些 数据 
并 不 是 现成 的 ,需要 花 一 些 时 间 来 统计 ,往往 不 能 及 时 拿 到 ,或 不 能 拿 
到 准确 的 数据 。 

老 梁 : 还 好 ,咱们 公司 的 市 场 部 和 财务 部 挺 配 合 咱们 的 工作 ,只 要 是 
出 于 工作 原因 ,需要 的 数据 基本 都 可 以 取 到 。 当 然 有 时 候 不 能 立即 得 到 
数据 ,因为 有 些 数据 他 们 也 需要 时 间 来 统计 ,不 过 已 经 足够 好 了 。 

Miss 陈 : 是 的 ,我 们 公司 还 好 。 不 过 听 说 有 一 些 企业 的 经 营 数据 可 
不 是 那么 容易 获取 的 ,这 和 部 门 之 间 的 沟通 、 协 作 程度 有 关系 ,协作 程度 
不 高 的 部 门 取 数 是 比较 麻烦 的 事情 。 

再 比如 我 们 进行 薪酬 公平 性 分 析 时 ,需要 取 外 部 的 薪酬 数据 来 对 
标 ,而 这 类 薪酬 数据 没有 现成 的 ,在 互联 网 上 也 很 难 搜索 到 ,即使 搜索 
到 了 也 不 敢 轻 易 使 用 ,因为 不 能 保证 数据 的 真实 性 。 所 以 ,薪酬 数据 一 
般 需要 向 咨询 公司 购买 。 比 较 麻烦 的 是 不 同 咨询 公司 的 薪酬 数据 也 不 
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一 定 相 同 ,这 是 由 咨询 公司 薪酬 调查 的 方法 、 取 样 范围 和 区 域 不 同等 因 
素 造 成 的 。 所 以 对 于 咨询 公司 出 卖 的 薪酬 数据 ,我 们 还 需要 明确 数据 
的 调查 对 象 、 调 查 范围 和 区 域 .调查 方法 等 ,以 此 才能 决定 是 否 能 购买 
访 该 数据 。 

老 梁 : 听 上 去 的 确 比 较 麻烦 。 

Miss Ж: 此 外 ,获取 人 力 资源 的 历史 数据 也 有 一 定 难 度 。 人 力 资 
源 管 理 往往 重视 数据 的 时 效 性 ,对 当期 数据 比较 敏感 ,很 多 分 析 是 基于 
当期 或 同比 数据 ,对 更 早 的 历史 数据 往往 忽视 ,以 致 保存 不 周 。 在 需要 
历史 数据 的 时 候 难以 短 时 间 内 获得 ,经 常 东 拼 西 次 地 寻找 ,花费 了 不 少 
时 间 。 

老 梁 : 历史 数据 很 重要 吗 ? 

Miss 陈 : 当然 重要 ,数据 挖掘 中 的 很 多 算法 都 需要 历史 数据 ,比如 
回归 分 析 , 就 需要 大 量 的 历史 数据 才能 建立 回归 模型 ,进行 分 析 和 
预测 。 

老 梁 : 哦 , 真 没 意 识 到 ,看 来 咱们 得 定期 整理 历史 数据 ,妥善 保存 ,说 
不 定 哪 天 就 能 派 上 用 场 。 


142 缺 技 能 


Miss 陈 : 进行 人 力 资源 数据 分 析 还 有 一 个 很 大 的 障碍 ,就 是 人 力 资 
源 管理 人 员 本 身 的 数据 分 析 能 力 还 不 够 高 。 

ER: 斯 愧 , 俐 也 做 了 十 多 年 人 力 资源 管理 工作 ,的确 还 不 太 会 进行 
数据 分 析 。 不 过 也 有 客观 原因 ,我 在 大 学 里 没有 学 过 数据 分 析 , 没 有 学 过 
统计 学 ,工作 后 也 没有 参加 过 相关 培训 ,无 从 学 起 啊 。 

Miss Ж: 是 的 ,这 不 是 你 一 个 人 的 问题 ,大 多 数 人 力 资源 管理 人 员 
都 存在 这 个 问题 , 正 是 这 些 客观 原因 造成 了 人 力 资 源 管理 人 员 中 掌握 数 
据 分 析 技 能 的 人 很 少 。 随 着 计算 机 技术 的 发 展 , 统 计 技 术 和 工具 的 普及 ， 
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以 及 大 数据 时 代 的 到 来 ,人 力 资源 管理 人 员 也 要 顺应 当前 发 展 趋势 , 主动 
学 习 和 掌握 一 定 的 数据 分 析 知 识 和 技能 ,并 将 其 应 用 到 人 力 资源 管理 的 
实践 中 来 ,创造 出 人 力 资源 管理 领域 的 新 天 地 , 提升 人 力 资源 管理 的 水 
平 ,帮助 企业 更 好 地 运作 ,实现 经 营 目标 。 

ER: 经 理 ,我 和 同事 们 一 定 会 加 强 数据 分 析 知 识 、 工 具 的 学 习 , 提 
升 我 们 的 数据 分 析 水 平 ,提升 我 们 的 人 力 资 源 管理 水 平 。 

Miss 陈 : 好 的 ,我 们 一 起 努力 吧 ! 


= 
1 
第 2 = 


数据 分 析 前 的 准备 工作 


导语 : 工 欲 善 其 事 , 必 先 利 其 器 ,选择 合适 的 分 析 工 具 将 
让 数据 分 析 工 作 事半功倍 。 有 了 工具 ,还 需要 有 材料 ,如 何 
收集 和 清洗 数据 就 显得 至 关 重 要 ,这 也 是 整个 数据 分 析 过 程 
中 最 消耗 时 间 的 工作 。 本 章 介绍 各 种 数据 分 析 工 具 , 并 通过 
对 比分 析 重 点 介绍 R 语言 这 个 数据 分 析 的 利器 ;然后 介绍 数 
据 收集 的 工具 和 数据 清洗 的 知识 ,这 些 都 是 进行 数据 分 析 前 
的 准备 工作 。 
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m 如 何 选择 数据 分 析 工 具 


211 常用 的 数据 分 析 软 件 


老 梁 : 经 理 ,俗话 说 “ 工 欲 善 其 事 , 必 先 利 其 器 ?。 我 们 人 力 资源 管理 
人 员 该 如 何 选 择 一 款 合 适 的 数据 分 析 软 件 呢 ? 

Miss 陈 : 数据 分 析 的 软件 有 很 多 ,最 常见 的 是 我 们 熟悉 的 Excel, 除 
此 之 外 还 有 许多 专业 的 统计 软件 , 带 数据 统计 模块 的 计算 机 编程 语言 ， 
数据 分 析 函 数 的 数据 库 , 等 等 。 这 些 工具 在 其 相关 领域 或 行业 中 的 知名 
度 都 很 高 ,被 广泛 地 应 用 在 科研 、 商 业 等 环境 ,比较 著名 且 常 见 的 数据 分 
析 软 件 有 R、SPSS、SAS、Matlab、Mathematica、Stata、Python、Eviews 等 ， 
如 图 2-1 所 示 。 


Excel 


ү: 
gz. ag 
R SPSS 

ssas 

四 _ 


Mathematica 


Matlab 
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这 些 都 是 国内 比较 常见 的 数据 分 析 软 件 。 除 了 这 些 ,其 实 还 有 很 多 
数据 分 析 软 件 ,根据 最 新 统计 ,数据 分 析 软 件 有 93 款 之 多 ,涉及 大 数据 、 
数据 库 、 图 表 等 方面 , 咱 这 里 就 不 一 一 列举 了 。 

老 梁 : 您 提 到 的 这 些 软件 ,有 些 我 听 说 过 ,比如 SPSS、SAS, 但 很 多 
都 没 听 说 过 。 经 理 ,这 些 数据 分 析 的 软件 有 什么 特点 呢 ? 

Miss Ж: 简单 介绍 一 下 刚刚 提 到 的 这 些 数据 分 析 软 件 的 特点 吧 。 


(1) R: 全 称 是 R language, 即 R 语言 。 这 是 一 种 计算 机 语言 ,是 专 
门 用 于 统计 分 析 、 绘 图 的 语言 和 操作 环境 。R 是 一 个 免费 、 源 代码 开放 
的 、 跨 平台 的 软件 ,是 一 个 用 于 统计 计算 和 统计 制图 的 优秀 工具 。 其 功能 
包括 数据 存储 和 处 理 系 统 、 数 组 运算 (其 向 量 、 和 矩阵 运算 方面 的 功能 尤其 
强大 )、 完 整 连贯 的 统计 分 析 、 优 秀 的 统计 制图 功能 .简便 而 强大 的 编程 语 
言 ( 可 操纵 数据 的 输入 和 输出 ), 可 实现 分 支 .循环 ,用 户 可 自 定义 功能 。 
从 某 种 角度 来 说 ,R 语言 的 统计 功能 是 所 有 统计 软件 中 最 强大 的 ,因为 除 
了 传统 的 统计 算法 之 外 ,目前 最 新 的 统计 算法 和 研究 技术 都 能 在 及 语言 
中 找到 相关 的 函数 包 , 几 乎 涵盖 了 人 们 在 统计 学 领域 的 所 有 知识 成 果 ， 而 
且 算 法 更 新 速度 极 快 , 这 点 让 商业 领域 的 明星 软件 SAS 和 SPSS 都 望 尘 
£, 

(2) Excel: Microsoft Office System 中 的 电子 表格 程序 ,是 我 们 经 常 
使 用 的 办 公 软 件 之 一 ,使 用 频率 非常 高 。 它 可 以 完成 表格 和 输入、 统计 、 分 
析 等 工作 ,可 生成 精美 直观 的 表格 、 图 表 , 是 我 们 日 常 工作 中 处 理 各 种 表 
格 的 首选 工具 。 随 着 Excel 的 升级 ,现在 还 可 以 使 用 它 跟踪 数据 ,生成 数 
据 分 析 模 型 ,编写 公式 以 对 数据 进行 计算 ,以 多 种 方式 透视 数据 ,并 以 各 
种 具有 专业 外 观 的 图 表 来 显示 数据 。 由 于 Excel 也 有 统计 模块 ,所 以 可 
以 说 Excel 也 是 数据 分 析 软 件 。 

(3) SPSS; 全 称 Statistical Product and Service Solutions, 即 “统计 产 
品 与 服务 解决 方案 ”,IBM 公司 的 统计 软件 ,可 用 于 统计 学 分 析 运 算 、 数 
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据 挖掘 、 预 测 分 析 和 决策 支持 任务 的 软件 产品 及 相关 服务 。IBM 还 有 基 
于 SPSS 的 衍生 软件 SPSS Modeler, 专 门 用 于 数据 挖 气 领域 ,提供 了 不 少 
主流 的 数据 挖掘 算 法 (包括 文本 分 析 、 实 体 分 析 、 决 策 管理 与 优化 )。 
SPSS 在 生物 、 医 疗 \ 心 理学 等 科研 领域 用 得 较 多 。 

(4) SAS: 全 称 Statistical Analysis System, 即 “ 统 计 分 析 系 统 ”, 是 由 
美国 NORTH CAROLINA 州立 大 学 于 1966 年 开发 的 统计 分 析 软 件 ， 
总 部 位 于 美国 北 卡罗来纳 州 的 凯 瑞 ,是 全 球 最 大 的 私有 软件 公司 。 
SAS 系统 在 国际 上 已 被 誉 为 统计 分 析 的 标准 软件 ,是 全 球 商业 智能 和 
分 析 软 件 与 服务 领袖 ,全 球 50 000 多 家 企业 都 在 通过 SAS 软件 对 数据 
进行 深入 挖 气 , 在 各 个 领域 得 到 广泛 应 用 。 另 外 ,SAS 可 能 是 最 贵 的 统 
计 软 件 。 

(5) Matlab; Matrix laboratory 的 缩写 ,是 一 款 由 美国 The 
MathWorks 公司 出 品 的 商业 数学 软件 ,是 一 种 用 于 算法 开发 、 数 据 可 视 
化 数据 分 析 , 以 及 数值 计算 的 高 级 技术 计算 语言 和 交互 式 环境 。Matlab 
还 可 以 用 来 创建 用 户 界面 及 与 调用 其 他 语言 (包括 С,С++ 和 Fortran) 编 
写 的 程序 。Matlab 主要 用 于 数值 运算 ,但 利用 为 数 众多 的 附加 工具 箱 
(Toolbox) 它 也 适合 不 同 领域 的 应 用 ,例如 控制 系统 设计 与 分 析 、 图 像 处 
理 、 信 号 处 理 与 通信 、 金 融 建 模 和 分 析 等 。 另 外 还 有 一 个 配套 软件 包 
Simulink, 提 供 了 一 个 可 视 化 开发 环境 ,常用 于 系统 模拟 、 动 态 /说 入 式 系 
统 开发 等 方面 。 数 学 专业 的 同学 们 基本 上 都 会 学 习 这 个 软件 。 

(6) Mathematica: 由 美国 科学 家 斯 带 芬 。 沃 尔 夫 勒 姆 领导 的 沃 尔 夫 
勒 姆 研究 公司 (位 于 美国 伊利 诺 伊 州 香槟 市 ) 开 发 的 一 款 被 广泛 使 用 的 计 
算 软件 。 它 拥有 强大 的 数值 计算 和 符号 运算 能 力 ,是 目前 为 止 使 用 最 广 
泛 的 数学 软件 之 一 。 软 件 名 字 “Mathematica” 还 是 由 苹果 创办 人 乔布斯 
向 沃 尔 夫 勒 姆 公司 创立 者 提议 命名 的 。Mathematica 和 Matlab 都 是 数 
学 领域 的 主流 软件 。 
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(7) Stata: 数据 分 析 、 数 据 管理 以 及 绘制 专业 图 表 的 整合 性 统计 软 
件 。Stata 的 统计 功能 很 强 ,除了 传统 的 统计 分 析 方 法 外 ,还 收集 了 近 20 
年 发 展 起 来 的 新 方法 ,如 Cox 比例 风险 回归 ,指数 与 Weibull 回归 ,多 类 
结果 与 有 序 结果 的 logistic 回归 ,Poisson 回归 , 负 二 项 回归 及 广义 的 负 
二 项 回归 ,随机 效应 模型 等 。 

(8) Python: 一 种 面向 对 象 、 解 释 型 的 计算 机 程序 设计 语言 ,与 C++、 
Pascal 等 计算 机 编程 语言 类 似 。 它 的 主要 特点 是 语法 简洁 而 清晰 、 具 有 
丰富 和 强大 的 类 库 、 免 费 且 开源 、 代 码 可 移植 性 强 , 能 够 把 用 其 他 语言 制 
作 的 各 种 模块 (尤其 是 C/C++ ) 很 轻松 地 联结 在 一 起 。Python 有 专门 的 
数据 分 析 库 ,比如 数据 分 析 三 件 套 Matplotlib、Nunpy、Scipy, 可 以 进行 科 
学 运算 、 数 据 分 析 和 统计 绘图 。 

(9) Eviews: Econometrics Views 的 缩写 ,通常 称 为 计量 经 济 学 软件 
包 。 软 件 本 意 是 对 社会 经 济 关系 与 经 济 活动 的 数量 规律 ,采用 计量 经 济 
学 方法 与 技术 进行 “观察 ”, 也 是 专门 从 事 数据 分 析 、 回 归 分 析 和 预测 的 工 
具 。 使 用 Eviews 可 以 迅速 地 从 数据 中 寻找 出 统计 关系 ,并 用 得 到 的 关系 
去 预测 数据 的 未 来 值 , 其 应 用 范围 包括 科学 实验 数据 分 析 与 评估 、 金 融 分 
析 、 宏 观 经 济 预测 、 仿 真 、. 销 售 预测 和 成 本 分 析 等 。 


212 选择 数据 分 析 工具 的 策略 


ER: 经 理 , 这 么 多 数据 分 析 软 件 让 我 眼花 练 乱 啊 , 好 像 个 个 都 不 错 
呢 , 该 如 何 选择 呢 ? 

Miss 陈 : 不 同 的 使 用 者 应 该 考虑 不 同 的 选择 策略 ,根据 实际 需求 来 
选择 合适 的 数据 分 析 工 具 。 我 们 是 人 力 资源 管理 从 业 人 员 ,那么 就 先 分 
析 一 下 我 们 在 数据 分 析 方 面 的 需求 和 特点 吧 。 


(1) 人 力 资源 需要 分 析 的 数据 量 级 不 大 , 远 未 达到 大 数据 量 级 。 大 
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数据 是 指数 据 的 体 量 很 大 ,达到 或 超过 1TB 规模 的 数据 ,显然 人 力 资 源 
的 数据 没有 达到 这 个 级 别 , 只 是 小 数据 。 

(2) 人 力 资源 需要 分 析 的 数据 种 类 较 多 ,涉及 人 力 资源 管理 的 各 个 
模块 。 比 如 招聘 培训、 绩效 、 薪 酬 等 管理 模块 都 会 产生 数据 。 由 于 我 们 
全 面 启用 了 人 力 资源 管理 系统 ,这 些 数据 多 数 都 存储 在 数据 库 中 ,格式 比 
较 规范 ,并 且 容 易 收集 。 

G) 人 力 资源 的 数据 统计 方法 相对 比较 基础 和 传统 ,一 般 用 计数 、 汇 
总 、 百 分 比 、 平 均 数 等 方法 ,从 不 同 维度 进 行 统计 ,通过 同比 、 环 比 、 横 向 对 
比 、 对 标 等 方式 进行 分 析 。 

(4) 人 力 资源 管理 的 从 业 人 员 在 数据 分 析 方 面 所 知 所 学 不 多 ,很 多 
人 在 工作 后 才学 习 使 用 各 种 软件 并 接触 数据 分 析 。 


老 梁 : 经 理 , 您 说 得 对 啊 。 

Miss 陈 : 所 以 ,作为 人 力 资源 管理 从 业 人 员 在 选择 数据 分 析 软 件 的 
时 候 , 应 该 根据 我 们 的 需求 特点 ,从 功能 性 、 易 用 人 性、 经 济 性 三 个 维度 ,去 
衡量 如 何 选择 合适 的 数据 分 析 软 件 。 

老 梁 : 您 是 说 应 该 选择 功能 强大 、 简 单 易 学 并 且 成 本 又 不 会 太 高 的 
分 析 软 件 ? 

Miss Ж: 是 的 ,其 实 就 是 选择 性 价 比 。 在 Excel, R, SPSS, SAS, 
Matlab, Mathematica, Stata, Python, Eviews 等 软件 中 选择 的 话 , 那 么 
Excel 在 易 用 性 方面 比较 突出 ,也 有 一 定 的 统计 分 析 功 能 ,可 以 作为 初 、 
中 级 用 户 的 选择 ;R 在 功能 性 、 经 济 性 方面 比较 突出 ,可 以 作为 中 、 高 级 用 
户 的 选择 ,如 图 2-2 所 示 。 

老 梁 : 经 理 ,您 前 面 提 到 Python 也 是 免费 的 ,从 功能 性 、 易 用 性 、 经 
济 性 三 个 维度 来 看 也 有 优势 ,为 什么 不 选 它 呢 ? 

Miss 陈 : Python 虽然 简单 .强大 标准、 免费 ,但 它 是 一 门 计算 机 编 
程 语言 , 它 能 做 的 事情 太 多 ,而 数据 分 析 只 是 它 众多 功能 模块 中 的 一 个 小 
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初级 用 户 Excel 


数据 分 析 工 具 的 选择 


2-2 不 同 级 别 用 户 数 据 分 析 工 具 的 选择 


模块 ,不 是 其 专长 ,我 认为 Python 更 适合 计算 机 编程 专业 人 士 使 用 。 相 
对 而 言 ,R 虽然 也 是 一 门 编程 语言 ,但 R 是 专门 用 于 数据 分 析 的 语言 ， 
所 有 的 功能 都 为 数据 分 析 而 设计 。 所 谓 术 业 有 专攻 ,在 数据 分 析 领 域 ,R 
语言 更 具 优势 ,更 适合 我 们 去 使 用 。 


2.1.3 关于 Excel 


老 梁 : 经 理 ,既然 Excel 在 功能 性 和 易 用 性 上 有 优势 ,那么 我 们 是 不 
是 用 Excel 进行 数据 分 析 就 可 以 了 啊 ? 毕竟 我 们 对 Excel 的 熟悉 程度 
高 ,上 手 容 易 ,学 习 成 本 也 较 低 。 

Miss Ж: 很 遗憾 ,Excel 不 能 完全 满足 我 们 的 分 析 需 求 。 不 过 既然 
提 到 Excel, 那 么 我 们 就 谈 一 谈 它 ,因为 对 绝 大 多 数 人 力 资源 管理 人 员 来 
说 ,Excel 几乎 是 数据 统计 分 析 的 唯一 选择 ,日 常 工作 中 的 数据 分 析 基本 
都 靠 Excel 来 完成 。 

老 梁 : 是 啊 ,我 们 每 天 都 在 用 Excel 进行 数据 统计 和 报表 制作 。 

Miss 陈 : 所 以 Excel 是 我 们 最 常 使 用 的 办 公 软 件 之 一 ,使 用 频率 非 
常 高 ,甚至 可 以 说 是 office 办 公 软 件 中 使 用 频率 最 高 的 软件 。 而 且 不 仅 
是 咱们 人 力 资 源 部 ,公司 的 各 个 部 门 都 会 用 到 它 ,比如 市 场 部 做 经 营 分 
析 、 财 务 部 做 财务 分 析 等 ,都 会 使 用 Excel, 

从 功能 上 来 讲 ,Excel 可 完成 表格 输入 、 统 计 、 分 析 等 工作 ,可 生成 精 
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美 直观 的 表格 、 图 表 , 是 我 们 日 常 工作 中 处 理 各 式 各 样 表格 的 优秀 工具 。 
并 且 随 着 Excel 的 升级 ,新 的 版 本 还 可 以 跟踪 数据 ,生成 数据 分 析 模 型 ， 
编写 公式 以 对 数据 进行 计算 ,以 多 种 方式 透视 数据 ,以 各 种 具有 专业 外 观 
的 图 表 来 显示 数据 ,数据 还 可 以 存储 到 云 中 保存 。 

在 数据 分 析 方面 ,Excel 提供 了 一 套 分 析 工 具 库 和 用 于 数据 分 析 的 
VBA 函数 库 ,可 以 比较 方便 地 进行 一 些 高 级 的 统计 分 析 , 比 如 常见 的 回 
归 分 析 、t 检验 \ 下 检验 、 方 差分 析 、 计 算 相 关系 数 等 ,都 可 以 在 Excel 的 数 
据 分 析 库 中 找到 ,如 图 2-3 所 示 。 但 是 Excel 提供 的 这 些 数据 功能 相 比 专 
业 的 统计 分 析 软 件 来 说 ,具有 种 类 不 多 、 计 算 结 果 简 单 、 图 形 粗 糙 等 缺点 ， 
不 过 据说 用 Excel 提供 的 УВА 函数 也 能 实现 很 多 数据 分 析 算 法 ,但 需要 
编写 大 量 代码 ,会 很 耗 时 间 。 


数据 分 析 ? х 
分 析 工 具 (A) 
确定 
指数 平滑 Шара 
FRR 双 样本 方差 | жн | 


ШАД 
直方 图 

移动 平均 
随机 数 发 生 器 


排 位 与 百分比 排 位 

回归 

抽样 

1-90: 平均 值 的 成 对 二 样本 分 析 


图 2-3 Excel 中 的 数据 分 析 工 具 


老 梁 : 经 理 , 虽 然 如 此 ,但 关键 是 别 的 软件 咱 也 不 会 啊 ,Excel 的 功能 
如 此 强大 ,又 容易 上 手 , 所 以 自然 就 想到 Excel 了 。 您 说 Excel 还 可 以 进 
行 回归 分 析 之 类 的 统计 分 析 ,感觉 很 不 错 呢 。 

Miss Ж: 是 的 ,Excel 老少 咸 宜 。 打 个 比方 ,Excel 就 像 一 把 菜刀 ,人 
人 都 可 以 用 来 切 菜 , 但 是 不 同 的 人 有 不 同 的 用 法 ,会 产生 不 同 的 效果 。 普 
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通 的 人 仅仅 用 来 切 菜 ,厉害 的 人 可 以 用 菜刀 杀 猪 宰 羊 ,各 样 操作 游 九 有 
余 。 类 似 的 ,Excel 用 到 高 深 之 处 ,一 切 和 数据 相关 的 工作 都 可 以 胜任 ， 
甚至 还 可 以 用 它 来 编写 游戏 。 
ER: 看 来 我 的 Excel 运用 还 处 于 初级 阶段 ,只 会 用 来 进行 简单 的 
数据 统计 和 做 报表 ,从 来 没 碰 过 数据 分 析 工 具 、VBA 这 些 东西 ,哈哈 。 
Miss 陈 : 虽然 Excel 有 许多 优点 ,但 也 有 不 足 的 地 方 。 


(1) Excel 的 高 级 数据 分 析 功 能 比较 简单 。 虽 然 Excel 提供 了 分 析 
工具 库 , 但 功能 却 比较 简单 。 比 如 回归 分 析 , 若 要 进一步 进行 自 变 量 多 重 
共 线 性 的 检验 ,就 做 不 了 ,也 不 能 做 逻辑 回归 分 析 。Excel 提供 的 分 析 算 
法 也 不 多 ,诸如 分 类 、 降 维 、 非 参数 检验 等 算法 都 没有 ,更 别 说 当前 大 数据 
时 代 流 行 的 机 器 学 习 算 法 。 虽 然 有 Excel 的 УВА 可 以 编写 代码 ,但 难度 
是 非常 大 的 。 

(2) Excel 的 绘图 功能 还 不 够 强 。 大 家 可 能 都 对 Excel 默认 的 图 表 
功能 抱怨 过 ,特别 是 2003 年 版 及 以 前 的 版 本 ,实在 缺乏 美感 。 虽 然 新 版 
本 的 Excel 图 表 好 看 了 很 多 ,还 加 入 了 应 用 商店 ,可 以 绘制 一 些 流行 的 图 
形 , 但 我 认为 Excel 的 绘图 还 是 不 够 强大 ,绘制 复杂 图 形 时 需要 进行 烦琐 
的 设置 ,并且 绘制 多 张 复杂 图 表 时 操作 显得 更 加 烦琐 。Excel 的 绘图 功 
能 跟 它 的 统计 功能 类 似 , 基 本 的 功能 都 有 ,很 容易 就 可 以 绘制 基本 图 形 ， 
但 是 复杂 图 形 就 需要 研究 很 久 、 设 置 很 多 参数 。 

(3) Excel 是 微软 Office 办 公 套 件 的 一 部 分 ,价格 不 菲 。 虽 然 家 庭 
版 ,学生 版 比较 便宜 ,但 很 多 功能 都 被 阁 害 了。 比如 Power View 功能 在 
家 庭 版 和 学 生 版 上 就 找 不 到 ,必须 得 用 专业 版 ,可 是 专业 版 的 价格 就 很 
高 。 现 在 微软 的 收费 方式 又 有 变化 ,采取 月 费 或 年 费 的 方式 ,每 年 都 得 花 
钱 , 算 起 来 开支 不 小 。 单 就 软件 收费 而 说 无 可 厚 非 ,但 成 本 费用 一 定 是 影 
响 我 们 选择 软件 的 重要 因素 。 
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老 梁 : 是 啊 , 咱 们 公司 当年 买 Office 办 公 软 件 可 花 了 不 少 钱 ,不 过 随 
着 时 间 推 移 , 以 前 的 版 本 都 过 时 了 ,还 没 升级 呢 。 看 别人 新 版 本 的 Excel 
界面 很 酷 ,功能 很 多 ,可 惜 咱们 没 得 用 啊 。 如 果 要 用 得 花 不 少 钱 呢 , 大 家 
都 在 等 着 公司 升级 Office 版 本 ,可 是 不 知道 喻 时 候 才 会 升级 到 新 版 本 。 

Miss Kk: 呵呵 ,公司 如 果 升 级 Office, 那 将 会 是 一 笔 不 菲 的 开支 。 现 
在 版 本 的 Office 还 能 用 ,而 且 也 不 影响 公司 正常 的 经 营 生 产 , 升 级 的 必要 
性 不 大 ,所 以 公司 多 半 会 继续 使 用 现在 的 版 本 。 


214 关于 及 语言 


1. R 语言 的 江湖 地 位 


老 梁 : 经 理 ,俗话 说 ,天 下 没有 免费 的 午餐 , 像 R 语言 这 样 免费 的 数 
据 分 析 软 件 会 不 会 有 缺陷 ,如 功能 不 全 ,性 能 不 强 , 又 或 者 有 某 些 功能 要 
收费 呢 ? 

Miss 陈 : 人 们 对 免费 的 东西 持 有 怀疑 态度 是 一 种 常见 的 思维 定式 ， 
就 像 超 市 里 面 免费 品尝 的 东西 实际 上 是 在 引诱 你 买 货架 上 的 产品 ,培训 
机 构 请 你 免费 听课 无 非 是 进行 广告 宣传 吸引 你 去 参加 收费 的 培训 ,旅游 
公司 的 免费 旅游 实际 上 会 让 你 在 购物 点 度 过 大 部 分 时 间 。 

但 是 在 互联 网 领域 ` 科 学界, 分享 是 一 种 价值 观 。 在 这 种 价值 观 的 引 
导 下 诞生 了 一 些 高 质量 的 免费 软件 ,R 语言 就 是 其 中 的 佼佼 者 。R 语言 
是 上 帝 给 我 们 的 珍贵 礼物 ,你 可 以 用 R 语言 做 一 切 数 据 统计 分 析 方 面 的 
事情 ,尽情 享用 几 百 年 来 人 类 在 数据 统计 方面 的 研究 成 果 , 各 种 算法 应 有 
尽 有 。 最 新 的 统计 方法 发 表 出 来 后 通常 会 在 及 语言 中 率先 实现 应 用 ,这 
让 其 他 所 有 统计 软件 黯然 失色 。 了 语言 在 数据 分 析 .数据 挖掘 领域 的 功 
能 之 强大 , 胜 过 前 面 提 到 的 任何 一 款 统计 软件 ,并 且 使 用 这 一 软件 不 需要 
花 一 分 钱 。 
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国外 著名 的 数据 分 析 和 挖掘 社区 KDnuggets 每 年 都 会 做 一 次 关于 
数据 分 析 、 大 数据 数据 挖掘 、 数 据 科 学 使 用 软件 工具 的 调查 ,根据 2015 
年 的 调查 结果 ,R 语言 在 参与 评选 的 93 款 相关 软件 中 排名 第 一 ,使 用 率 
达到 了 46. 9% ,江湖 老大 的 地 位 伍 然 确立 。 排 名 前 10 的 数据 分 析 软 件 
如 图 2-4 所 示 。 
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2-4 排名 前 10 的 数据 分 析 软 件 (KDnuggets,2015) 


ЖЖ: 真 没 想到 ,一 个 名 称 看 上 去 如 此 简单 .普通 的 软件 ,在 数据 分 
析 领 域 的 地 位 竟 如 此 之 高 。 

Miss Ж: 其 实 有 语言 诞生 得 很 早 ,之 前 一 直 在 科研 .专业 领域 传播 
和 应 用 , 随 着 大 数据 的 流行 才 真正 进入 大 众 的 视线 。 


2. R 语言 的 前 世 今 生 


老 梁 : 经 理 , 我 很 好 奇 R 语 言 的 来 历 。 

Miss 陈 : 那 给 你 讲 讲 及 语言 的 故事 吧 。 

R 语言 源 于 S 语 言 ,S 语言 也 是 一 种 用 于 统计 分 析 的 计算 机 语言 。S 
语言 非常 厉害 ,1998 年 美国 计算 机 协会 (ACM) 给 S 语言 的 设计 者 发 了 一 
个 奖 : 软件 系统 奖 ,用 来 表彰 S 语言 取 得 的 成 就 。 这 个 奖 很 牛 , 因 为 得 奖 
的 都 是 系统 级 别 的 软件 ,比如 Unix、TeX、TCP/IP、Word-Wide-Web、Java 
等 ,个 个 大 有 来 头 。 在 所 有 获得 软件 系统 奖 的 软件 中 ,S 语言 是 唯一 一 个 
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统计 软件 ,可 见 其 厉害 之 处 。 不 过 S 语言 是 商业 软件 , 跟 SPSS, SAS 一 
样 ,需要 花 钱 购买 。 

1993 年 ,新西兰 奥克兰 大 学 的 两 位 统计 学 家 ,一 位 叫 Ross Ihaka, 5 
一 位 叫 Robert Gentleman。 他 们 两 位 志趣 相投 心意 相通 ,利用 业余 时 间 
对 S 语 言 进行 了 改进 ,创造 出 了 一 种 新 的 统计 语言 。 由 于 两 位 统计 学 家 
的 名 字 都 是 以 R 开头 ,这 个 新 的 统计 语言 也 就 顺理成章 被 命名 为 R。 

当年 这 两 位 大 牛 将 刚 诞生 不 久 的 及 语言 放 到 了 卡耐基 梅 隆 大 学 
的 计算 机 服务 器 上 , 供 大 家 下 载 研究 。 这 时 用 R 语言 的 人 极 少 ,但 也 有 
不 少 人 进行 了 下 载 研究 ,其 中 来 自 苏黎世 理工 学 院 的 一 位 学 者 在 用 了 R 
语言 之 后 ,大 力 劝 说 两 位 作者 公开 源 代码 ,让 R 语言 成 为 自由 软件 。 两 
年 后 , 即 1995 年 ,两 位 教授 本 着 分 享 、 协 作 的 精神 ,将 R 语言 源 代码 正式 
发 布 到 自由 软件 协会 的 FTP 服务 器 上 , 自 此 R 语言 正式 以 自由 软件 的 身 
份 面向 全 世界 。 

随后 的 20 年 ,R 语言 充分 体现 了 互联 网 时 代 国 际 化 协作 发 展 的 特 
点 : 诞生 于 新 西 兰 ,邮件 列表 维护 在 瑞士 ,服务 器 架设 在 奥地利 ， 
Windows 版 本 主 程序 维护 在 加 拿 大 ,附加 包 维 护 在 德国 ,Mac OS 版 本 维 
护 在 美国 ,全 球 近 20 个 国家 有 镜像 网 站 。 核 心 开发 团队 有 20 人 ,成 员 来 
自 世 界 各 地 的 大 学 ,如 牛津 大 学 加拿大 西安 大 略 大 学 等 ,也 有 来 自 企 业 
的 成 员 ,比如 ATT 3:399 10 Simon Urbanek 等 。 

就 是 这 样 一 种 组 织 .维护 形式 松散 的 计算 机 语言 ,依靠 着 志愿 者 坚持 
不 懈 的 贡献 ,在 不 断 发 展 和 升级 。 现 在 世界 各 地 大 量 的 优秀 统计 学 家 、 各 
个 领域 的 统计 学 爱好 者 、 计 算 机 程序 员 都 在 为 R 语言 贡献 自己 的 力量 ， 
将 大 量 统计 方法 以 附加 包 (package) 的 形式 发 布 出 来 ,使 其 他 不 擅长 编程 
的 用 户 能 以 最 快 的 速度 用 上 最 新 的 统计 方法 。 

2012 年 ,R 语言 可 以 下 载 的 package 达到 3 200 个 ,用 了 17 年 ;2015 
年 ,R 语言 可 以 下 载 的 package 翻 倍 达 到 6 800 个 , 仅 用 了 3 年 。 那 些 封 


第 2 章 数据 分 析 前 的 准备 工作 昌 


闭 源 代码 的 商业 统计 软件 很 难 有 这 样 的 发 展 速度 ,只 能 望尘莫及 。R 语 
言 像 滚雪球 一 样 , 依 靠 开源 、 分 享 、 协 作 的 方式 ,从 开始 不 温 不 火 ,蓄积 能 
量 ,到 后 来 逐渐 显示 出 威力 ,再 到 大 数据 时 代 彻底 爆发 ,成 就 了 R 语言 的 
今天 。 

ER: 大 开眼 界 了 , 没 想到 还 有 这 样 的 软件 , 它 就 是 由 跨国 界 、 跨 种 族 
的 精英 共同 创造 的 智慧 结晶 啊 , 不 仅 免费 ,还 集 全 世界 各 领域 数据 分 析 家 
的 努力 和 智慧 于 一 身 , 真 是 一 个 伟大 的 软件 。 听 了 R 语言 的 故事 ,我 已 经 
被 R 语 言 深 深 吸 引 了 ,等 下 我 就 去 下 载 R 语 言 , 马 上 安装 ,马上 学 习 。 


3. R 语言 是 算法 聚宝 盆 


ER: 对 了 ,经 理 ,R 语言 中 的 package 都 是 用 来 做 什么 的 ? 

Miss К: 这 些 package 是 函数 包 , 是 为 了 解决 某 个 问题 或 为 实现 某 
种 统计 算法 而 编写 的 函数 集 。 在 package 中 蕴藏 着 大 量 的 统计 算法 ,就 
像 是 一 个 聚宝 盆 ,包含 我 们 能 想到 的 和 不 能 想到 的 ` 学 过 的 和 没 学 过 的 、 
古老 的 和 现代 的 ,简单 的 和 复杂 的 算法 ,应 有 尽 有 ,可 以 称 其 为 算法 聚宝 
盆 。 其 中 部 分 算法 如 图 2-5 所 示 。 
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图 2-5 R 语言 中 的 统计 算法 
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老 梁 : 经 理 ,您 说 的 算法 是 指 什么 呢 ? 


29 


30 


是 大 数据 时 代 的 人 力 资源 管理 


Miss 陈 : 算法 可 以 简单 理解 为 解决 问题 的 计算 方法 。 例 如 ,我 们 每 
个 月 要 给 员工 发 工资 ,按照 (中 华人 民 共 和 国 个 人 所 得 税法 》, 要 计算 每 个 
员工 的 个 人 所 得 税 ,而 个 人 所 得 税 实行 累进 税率 ,其 计算 公式 如 下 : 

应 纳 个 人 所 得 税 税额 二 应 纳税 所 得 额 X 适 用 税率 一 速算 扣除 数 

上 面 的 公式 就 是 一 个 算法 。 如 果 编 个 函数 ,把 这 个 公式 用 计算 机 语 
言 来 表示 ,再 输入 本 月 工资 数额 ,计算 出 个 人 所 得 税 ,那么 这 个 公式 就 可 
称 为 一 个 计算 机 算法 。 

R: 哦 ,R 语言 中 的 package 就 是 这 些 算法 的 集合 吗 ? 

Miss 陈 : 是 的 。R 语言 中 的 package 包罗 万 象 ,包含 了 各 种 各 样 的 
算法 ,涉及 数据 分 析 的 各 个 领域 ,比如 生物 ,经济 、 金 融 \ 心 理学 、 医 学 、 人 
工 智能 ,等 等 。 

老 梁 : 涉及 的 范围 真 广 啊 ! 

Miss 陈 : 现在 流行 的 大 数据 分 析 , 其 背后 也 是 各 种 统计 分 析 算 法 在 
支撑 ,而 不 仅仅 是 简单 的 一 些 数据 统计 。 比 如 你 在 浏览 淘宝 网 页 的 时 候 ， 
有 没有 注意 网 页 的 广告 .推荐 的 商品 ,都 符合 你 本 人 的 购买 倾向 和 喜 
好 呢 ? 

老 梁 : 哎呀 ,是 的 ,我 正 奇 怪 呢 。 最 近 上 淘宝 ,看 到 有 个 页 面 叫 “发 现 
好 货 ”, 里 面 推 荐 的 商品 都 是 我 最 近 浏览 过 的 ,或 者 是 和 我 浏览 过 的 商品 
相关 的 商品 ,更 有 我 没有 浏览 过 但 觉得 还 不 错 的 商品 。 所 以 打开 这 个 页 
面 后 不 由 自主 就 看 了 好 久 ,一 不 小 心 就 买 了 不 少 东 西 。 

Miss 陈 : 这 是 由 于 淘宝 的 大 数据 分 析 做 得 很 好 ,后 台 有 算法 在 分 析 
用 户 的 购买 倾向 。 比 如 可 以 根据 用 户 的 注册 资料 ,将 用 户 的 购买 行为 进 
行 分 类 ,用 分 类 算法 建立 预测 模型 。 当 你 注册 淘宝 用 户 时 ,会 填写 个 人 资 
料 ,这 些 资料 包括 你 的 性 别 、 所 在 地 、 年 龄 .职业 .学 历 等 ,对 吧 ? 你 填写 的 
资料 越 详 细 ,淘宝 对 你 的 分 析 就 越 精准 。 淘 宝 可 以 分 析 这 些 资 料 ,根据 你 
购买 商品 的 行为 建立 预测 模型 ,就 能 预测 你 的 购买 倾向 ,计算 出 你 购买 不 
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同 种 类 商品 的 概率 是 多 少 。 当 你 再 次 浏览 淘宝 网 页 的 时 候 , 就 会 有 针对 
性 地 向 你 推送 你 可 能 购买 的 商品 ,自然 就 能 最 大 限度 地 激发 你 的 购买 欲 
望 ,购物 成 功率 就 会 提高 很 多 。 

ER: 哎呀 ,原来 是 这 样 , 看 来 以 后 资料 不 能 填 得 太 详细 ,否则 自己 
的 想法 都 被 别人 知道 了 。 

Miss Ж: 银行 对 用 户 申请 信用 卡 、 贷 款 、 股 票 账户 开户 的 风险 评估 
基本 也 是 用 这 类 算法 来 实现 的 。 这 类 算法 有 不 少 呢 ,在 R 语言 中 都 能 找 
到 对 应 的 package, 使 用 相当 方便 。 很 多 商业 软件 才 有 的 算法 ,比如 神经 
网 络 、 贝 叶 斯 分 类 、 决 策 树 、 随 机 森林 结构 方 程 模 型 等 ,在 R 语言 中 都 可 
СЕКСЕ 

ER: 经 理 ,R 语言 中 有 没有 咱们 人 力 资源 管理 领域 的 package W? 

Miss 陈 : 人 力 资 源 属 于 管理 领域 ,很 少 进行 数据 分 析 方 面 的 研究 ， 
对 算法 的 依赖 性 也 不 强 , 所 以 没有 专门 对 应 的 package。 但 是 现今 的 人 力 
资源 管理 领域 骂 须 提升 数据 分 析 水 平 , 以 应 对 当前 大 数据 技术 发 展 的 趋 
势 ,从 而 提高 人 力 资 源 管理 水 平 。 为 此 ,我们 应 该 积极 挖掘 人 力 资源 数据 
价值 ,尝试 将 数据 分 析 的 方法 引入 工作 实践 中 ,创新 我 们 的 管理 方法 , 解 
决 管理 中 出 现 的 问题 。 实 际 工 作 中 ,我 们 可 以 根据 具体 问题 具体 分 析 , 明 
确 数据 分 析 方 面 的 解决 方案 ,然后 再 去 寻找 对 应 的 算法 。 

ER: 明白 了 ,我们 做 人 力 资源 管理 的 对 这 些 算 法 知之 甚 少 ,看 来 以 
后 得 加 强 学 习 啊 。 


4. R 语言 是 绘图 专家 


老 梁 : 您 刚才 提 到 R 语言 可 以 绘图 ,这 方面 R 语言 有 什么 特别 之 
处 吗 ? 

Miss Ж: R 语言 的 绘图 功能 很 强大 。 本 来 绘图 只 是 R 语言 附带 的 
功能 ,但 得 益 于 R 语言 的 开放 性 ,许多 人 又 给 R 语言 开发 了 专门 的 绘图 
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包 , 使 得 R 语言 的 绘图 功能 变 得 异常 强大 ,几乎 不 输 于 任何 商业 数据 绘 
图 软件 。 图 2-6 列 出 了 部 分 利用 R 语言 绘制 的 数据 图 ,你 可 以 看 看 。 


> 


图 2-6 R 语言 绘图 功能 展示 
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老 梁 : 哇 , 这 些 图 形 看 得 我 眼花 练 乱 ,都 是 用 R 语言 绘制 的 吗 ? 

Miss 陈 : 是 的 ,上 面 列 出 的 图 形 只 是 R 语言 绘图 功能 的 冰山 一 角 ， 
你 可 以 上 网 搜索 一 下 ,能 看 到 更 多 的 R 语言 绘制 的 数据 图 形 。 其 实 R 语 
言 本 身 的 绘图 功能 已 经 不 弱 , 再 加 上 许多 人 开发 了 功能 更 加 强大 的 绘图 
包 , 提 供给 RR 语言 用 户 使 用 ,所 以 R 语言 的 绘图 功能 变 得 强大 。 其 中 比 
较 重要 的 绘图 包 有 ggplot2 \lattice 等 。ggplot2 包 更 是 将 R 语言 的 绘图 
功能 发 扬 光 大 , 它 将 简单 的 图 形 语 法 融入 R 语言 ,使 R 语言 能 够 绘制 出 
各 种 惊艳 、 漂 亮 的 统计 图 形 , 极 大 地 扩大 了 R 语言 在 图 形 领 域 的 影响 力 。 


5. 人 力 资源 管理 人 员 使 用 R 语言 的 技能 需求 


ER: 经 理 , 我 觉得 R 语 言 的 功能 太 强 大 了 ,package 浩瀚 如 海 ,作为 
人 力 资源 管理 人 员 ,应 该 掌握 R 语言 的 哪些 知识 和 技能 呢 ? 

Miss 陈 : 根据 人 力 资源 管理 人 员 的 特点 ,建议 按照 以 下 顺序 学 习 R 
语言 相关 基础 知识 。 


(1) 语法 。 其 实 及 语言 的 语法 很 简单 ,多 数 时 候 几 个 函数 就 可 以 解 
决 问题 ,并 且 这 些 函 数 用 起 来 和 下 xcel 中 的 函数 很 相似 。 像 循环 控制 、 条 
件 语句 等 都 很 少 用 到 ,除非 要 编写 函数 ,但 通常 不 需要 这 么 做 。R 语言 不 
需要 很 长 的 代码 ,一 个 函数 加 几 个 参数 就 能 制作 一 个 复杂 的 统计 模型 ,是 
比较 典型 的 函数 式 语言 。 

(2) 数据 类 型 和 数据 读 取 方 法 。R 语言 中 的 数据 类 型 有 几 种 ,最 常 
用 的 是 数据 框 (dataframe) ,很 多 统计 分 析 都 是 基于 数据 框 来 进行 的 。 数 
据 框 的 数据 结构 和 数据 库 中 的 数据 表 类 似 , 第 一 行 是 字段 名 ,从 第 二 行 开 
始 是 记录 ,每 个 字段 (每 列 ) 可 以 是 不 同类 型 的 数据 。 然 后 ,还 需要 掌握 数 
据 读 取 的 方法 ,比如 怎样 从 Excel 中 读 取 数 据 到 及 语言 中 。 

(3) 绘图 。R 语言 绘图 功能 相当 强大 ,一 个 plot 函数 就 可 以 变化 万 
千 ,绘制 很 多 种 图 形 。 但 强烈 建议 学 习 ggplot2 绘图 包 , 这 种 语法 简单 的 
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绘图 方式 ,一 旦 接触 使 用 就 会 被 吸引 ,使 你 再 也 不 想 离开 及 语言 。 


掌握 上 述 三 方面 的 知识 ,就 具备 了 用 R 语言 进行 数据 分 析 的 基础 能 
力 。 这些 内 容 在 许多 介绍 R 语言 的 书 中 都 可 以 学 到 。 具 备 这 些 基础 后 ， 
根据 实际 工作 需要 ,结合 具体 问题 寻找 对 应 的 算法 包 , 就 能 够 进行 数据 建 
模 .数据 分 析 等 操作 了 。 

比如 ,在 实际 工作 中 ,我 们 发 现 大 学 生 入 职 后 一 年 内 的 离职 现象 比较 
突出 ,给 公司 造成 了 不 良 的 影响 ,增加 了 员工 招聘 的 成 本 ,于 是 想到 能 否 
在 招聘 前 就 预测 出 大 学 生 在 入 职 一 年 内 的 离职 概率 ,从 而 提高 招聘 的 质 
量 。 带 着 这 个 问题 ,我 们 就 可 以 去 寻找 相应 的 分 析 算 法 ,结果 发 现 逻 辑 回 
归 、 决 策 树 .Boosting、 随 机 森林 、 神 经 网 络 等 算法 都 可 以 实现 这 个 目的 。 
于 是 我 们 可 以 选择 其 中 一 种 算法 ,下 载 对 应 的 package, 学 习 其 使 用 方法 ， 
研究 其 函数 如 何 使 用 、 对 数据 的 要 求 、 结 果 的 解释 ,然后 导入 数据 就 可 以 
进行 分 析 和 预测 了 。 

ER: 那么 是 不 是 还 要 学 习 统计 学 方面 的 知识 呢 ? 

Miss Ж: 当然 ,不 过 这 方面 知识 的 学 习 曲 线 会 很 长 ,涉及 数学 、 概 率 
等 内 容 , 对 人 力 资源 管理 人 员 来 说 有 不 小 的 难度 。 比 如 ,专门 讲解 贝 叶 斯 
分 类 的 书 就 有 好 几 本 书 , 作 为 人 力 资源 管理 人 员 ,学习 这 些 算法 原理 几乎 
不 可 能 ,因为 我 们 没有 时 间 、 精 力 和 基础 。 合 适 的 做 法 是 ,阅读 一 些 统计 
学 方面 的 科普 书籍 ,了 解 常 见 算法 的 作用 、 适 用 条 件 、 数 据 要 求 、 结 果 解 释 
等 内 容 ,也 就 是 了 解 算法 的 基本 原理 数据 输入 和 结果 输出 。 我 们 可 以 把 
统计 算法 当成 一 个 黑匣子 ,就 像 我 们 看 电视 , 仅 需 知 道 如 何 使 用 遥控 器 开 
关 电 视 , 如 何 选择 频道 即 可 ,不 需要 去 知道 电视 机 内 部 的 结构 和 实现 
原理 。 

ER: 这 么 说 来 我 就 松 了 口气 ,看 来 要 学 习 R 语言 也 不 像 想 象 中 那 
样 困难 ,掌握 基础 的 内 容 后 ,有 选择 性 地 学 习 package 的 用 法 ,就 可 以 在 
实际 工作 中 使 用 了 。 
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Miss 陈 : 是 的 。 对 人 力 资源 管理 人 员 来 说 ,诸如 Excel, Word ix FË 
所 见 即 所 得 的 工具 用 惯 了 ,要 编写 代码 的 确 有 障碍 ,其 中 最 大 的 恺 怕 是 心 
理 障碍 。 不 过 ,一 旦 克服 了 心理 障碍 , 迈 过 这 道 坎 ,就 会 有 令 人 振奋 的 收 
获 ,会 发 现 新 的 世界 。 


[2.2] 如 何 有 效 收集 数据 


221 打通 关节 ,从 内 外 部 渠道 收集 数据 


Miss Ж: 前 面 聊 了 数据 分 析 的 工具 , 接 下 来 我 们 看 看 如 何 收集 数 
据 。 我 们 要 做 数据 分 析 ,数据 是 最 基础 的 东西 , 它 是 原材料 ,而 原材料 的 
获取 非常 重要 ,很 大 程度 上 决定 了 我 们 可 以 进行 怎样 的 分 析 以 及 分 析 的 
质量 。 老 梁 , 你 说 说 平常 我 们 的 数据 是 从 哪些 渠道 收集 的 ? 

ER: 我 们 的 数据 ,一 是 从 人 力 资源 管理 系统 上 获取 ;二 是 各 单位 上 
报 ;三 是 在 网 上 搜索 下 载 ,大 概 就 这 三 种 方式 吧 。 

Miss Ж: 其 实数 据 来 源 的 渠道 有 很 多 ,可 以 分 为 内 部 渠道 和 外 部 汇 
道 , 如 图 2-7 所 示 。 


222 内 部 渠道 如 何 收集 数据 
Miss 陈 : 从 图 2-7 中 可 以 看 到 ,收集 数据 的 内 部 渠道 主要 包括 以 下 


方面 。 


(1) 企业 内 部 各 种 信息 化 管理 系统 ,这 是 最 重要 的 数据 来 源 。 内 部 
系统 包括 人 力 资源 管理 系统 、 财 务 管理 系统 、 企 业 资 源 管理 系统 .OA( 办 
公 自 动 化 ) 系 统 、 项 目 管理 系统 等 。 有 些 系统 还 有 若干 相对 独立 的 子 系统 ， 
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比如 我 们 的 人 力 资 源 管理 系统 ,下 面 还 有 招聘 测评 系统 培训 管理 系统 、 
在 线 学 习 系 统 、 人 事 档案 系统 和 绩效 考核 系统 。 这 些 系 统 中 存储 了 大 量 
的 数据 ,而 且 这 些 数 据 的 存储 形式 都 很 规范 ,所 以 数据 质量 相当 高 。 

(2) 各 级 单位 上 报 数据 。 这 是 获取 数据 的 简易 渠道 ,在 总 公司 层面 ， 
只 需要 发 布 通知 ,各 单位 就 会 按照 要 求 填报 数据 上 来 ,收集 数据 的 速度 较 
快 。 但 这 种 方式 的 缺点 是 数据 质量 参差 不 齐 , 特 别 是 数据 格式 、 数 据 类 型 
容易 出 错 ,造成 后 期 数据 清洗 的 时 候 会 花 不 少时 间 。 

(3) 内 部 问卷 调查 数据 。 比 如 ,我 们 曾经 做 过 的 薪酬 满意 度 调查 、 培 
训 需 求 调查 、 岗 位 价值 分 析 调 查 等 ,通过 问卷 的 形式 收集 数据 ,也 是 一 种 
简便 有 效 的 方式 。 

(4) 各 类 分 析 数 据 。 主 要 是 公司 各 个 部 门 .分 公司 的 分 析 报 告 ,比如 
经 营 分 析 、 财 务 分 析 和 人 力 资源 分 析 , 这 些 分 析 切 合 企业 实际 ,数据 价值 
非常 高 。 

(5) 历史 保留 数据 。 就 是 以 前 的 数据 ,比如 我 们 历年 的 招聘 测评 数 
据 、 人 员 流 动 数 据 、 劳 产 率 数据 等 ,这 些 数 据 都 非常 有 用 ,如 果 要 做 回归 分 
析 就 需要 积累 大 量 的 历史 数据 。 


老 梁 : 经 理 , 我 们 从 人 力 资 源 管 理 系 统 上 收集 数据 就 行 了 ,为 什么 还 
要 从 财务 市场、 项 目 管理 系统 去 收集 数据 呢 , 还 要 研究 它们 的 分 析 报告 ? 

Miss Ж: 人 力 资 源 数据 一 定 要 和 市 场 , 财 务 、 项 目 管理 等 数据 结合 
起 来 分 析 , 才 能 体现 价值 ,才能 贴 合 企业 经 营 发 展 的 实际 情况 ,才能 更 好 
地 服务 于 公司 的 战略 决策 ,否则 就 是 闭门造车 ,没有 说 服 力 。 

老 梁 : 原来 如 此 。 
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Miss 陈 : 再 说 说 收集 数据 的 外 部 渠道 吧 。 
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(1) 政府 发 布 数据 。 与 人 力 资 源 相关 的 主要 是 统计 局 \ 人 社 部 等 官 
方 网 站 的 公开 数据 ,政府 会 定期 公布 各 种 统计 数据 ,比如 每 年 的 社 平 工 
资 、 工 资 指导 线 、 最 低 工资 等 数据 。 但 这 些 数 据 相对 比较 宏观 ,范围 比较 
大 ,应 用 起 来 有 一 定 难度 。 比 如 社 平 工资 ,实际 上 并 不 能 反映 大 多 数 人 的 
收入 水 平 , 因 为 是 用 平均 数 来 代表 收入 水 平 , 极 容易 受 高 收入 者 的 影响 而 
被 拉 高 ,而 用 中 位 数 来 代表 薪酬 则 会 更 客观 些 。 所 以 这 类 数据 使 用 的 时 
候 需 要 慎重 。 

(2) 企业 发 布 数据 。 上 市 公司 都 会 发 布 年 报 , 其 中 一 些 数据 是 可 以 
利用 的 ,比如 可 以 通过 年 报 数据 知道 企业 的 劳动 生产 率 、 人 均 利润 等 ,这 
类 数据 在 各 种 财经 网 站 都 可 以 查 到 。 

(3) 商业 调研 数据 。 就 是 咨询 公司 通过 调研 收集 整理 的 数据 ,这 类 
数据 最 精准 。 比 如 ,一 些 招聘 网 站 或 者 咨询 公司 通过 调研 编制 的 年 度 薪 
一 报告 ,就 非常 符合 企业 的 需要 ,可 以 直接 用 来 对 标 , 进 行内 外 部 薪酬 的 
比较 分 析 。 我 们 公司 就 曾经 购买 过 某 大 型 人 才 网 站 的 薪酬 报告 ,用 来 优 
化 某 些 岗位 的 薪酬 水 平 。 

(4) 网 络 发 布 数据 等 。 主 要 是 各 类 网 站 、 搜 索引 擎 发 布 的 数据 ,比如 
谷歌 趋势 .百度 指数 、 百 度 趋势 、 微 博 指 数 、 搜 狗 指数 等 ,这 些 数据 通常 是 
免费 的 ,登录 相关 网 站 即 可 查询 。 另 外 有 一 些 行业 网 站 也 会 发 布 很 多 数 
据 , 比 如 经 济 类 、 人 金融 类 网 站 会 发 布 大 量 经 济 、 人 金融 股票 方面 的 数据 ,不 
过 这 类 数据 与 我 们 人 力 资 源 管 理工 作 的 相关 性 不 大 。 


老 梁 : 外 部 的 数据 收集 渠道 的 确 很 多 ,但 是 要 获得 薪酬 方面 的 数据 ， 
好 像 必 须 购买 商业 调研 数据 才 行 啊 。 

Miss 陈 : 是 的 ,薪酬 数据 的 收集 需要 耗费 较 大 的 人 力 、 物 力 和 财力 ， 
成 本 较 高 。 通 常 咨询 公司 都 是 将 其 作为 产品 售卖 ,价格 不 菲 。 不 过 最 近 
几 年 互联 网 兴起 了 一 些 晒 工资 的 网 站 和 软件 ,借助 网 络 的 力量 ,许多 人 上 
传 了 他 们 的 工资 数据 , 供 其 他 人 查询 和 参考 。 这 些 数据 的 可 信 度 值得 商 
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椎 , 但 也 可 以 作为 参考 数据 。 


[2.31 与 时 俱 进 , 运 用 各 种 工具 收集 数据 


2.3.1 用 Adobe Acrebat 制作 PDF 问卷 收集 数据 


Miss 陈 : 当 我 们 需要 通过 问卷 调查 来 收集 数据 的 时 候 , 通 常 我 们 会 
编制 问卷 ,然后 发 给 相关 单位 或 人 员 ,填写 后 回收 整理 ,是 吗 ? 

老 梁 : 是 的 ,不 过 问卷 调研 比较 麻烦 ,因为 收集 和 整理 数据 要 花 很 多 
时 间 。 

Miss Ж: 一 般 是 怎么 做 的 ? 

老 梁 : 我 会 用 Word 先 设计 间 卷 ,用 Excel 发 布 问卷 和 统计 数据 。 相 
对 来 说 Excel 问卷 的 数据 比较 好 收集 和 汇总 。 不 过 也 挺 花 时 间 的 , 当 回 
收 的 问卷 达到 几 百 份 的 时 候 ,打开 每 个 文件 进行 复制 .粘贴 的 操作 要 花 不 
少时 间 ,是 个 体力 活 。 

比如 ,图 2-8 所 示 的 问卷 ,左边 是 Word 版 本 ,右边 是 Excel 版 本 ,就 
是 我 每 次 进行 问卷 调查 做 的 样式 。 

Miss Ж: 除了 Мога 和 了 Excel ,其 实 还 有 一 种 可 以 用 来 做 问卷 调查 的 
文件 类 型 ,能 够 高 效 地 进行 问卷 数据 的 收集 。 你 知道 PDF 格式 的 文件 类 
型 吗 ? 

老 梁 : 知道 啊 ,我 们 OA 的 公文 都 是 PDF 格式 的 。 难 道 PDF 格式 的 
文件 可 以 做 成 问卷 吗 ? 这 种 文件 好 像 只 能 浏览 ,不 能 编辑 啊 ! 

Miss 陈 : 普通 的 PDF 文件 的 确 不 能 编辑 ,但 是 如 果 在 里 面 添加 一 些 
可 以 编辑 的 元 素 , 那 就 不 一 样 了 ,就 成 了 可 以 编辑 的 PDF。 还 记得 你 去 
年 申请 澳大利亚 签证 时 填写 的 申请 表 吗 ? 看 看 是 不 是 如 图 2-9 所 示 。 
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Word 版 本 


Excel 版 本 
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图 2-8 不 同 版 本 问卷 
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图 2-9 可 填写 的 PDF 问卷 


老 梁 : 哦 ,想起 来 了 ,当时 填 的 旅游 申请 表 的 确 是 一 个 PDF 文件 ,里 
面 有 些 内 容 的 确 可 以 输入 文字 或 者 进行 选择 , 那 时候 还 觉得 挺 神奇 呢 。 
不 过 ,在 PDF 中 设计 这 种 可 编辑 的 内 容 有 什么 意义 呢 ? 为 什么 不 直接 用 
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Word 或 Excel 来 填写 呢 ? WRA PDF 文件 来 填写 ,提取 数据 的 时 候 也 
会 有 大 量 的 复制 .粘贴 操作 啊 。 
Miss 陈 : 主要 有 三 个 原因 。 


(1) 防止 改变 整个 文档 的 设计 和 格式 。PDF 文档 整体 不 可 编辑 , 文 
档 的 内 容 、 排 版 .格式 是 固定 的 ,这 样 能 最 大 限度 防止 别人 改动 文档 ,保持 
文档 的 原始 外 貌 , 打 印 出 来 的 文档 排版 和 格式 都 是 统一 的 。Word 和 
Excel 格式 的 文档 如 果 不 做 特别 限定 ,整体 都 是 可 以 编辑 的 ,格式 和 排版 
都 不 受 控制 ,往往 导致 回收 的 问卷 样式 各 异 。 

(2) 限制 填写 的 内 容 和 格式 。PDF 文档 中 添加 的 可 编辑 元 素 , 可 以 
提供 下 拉 菜 单 限制 选择 ,可 以 限定 文本 框 中 只 能 填 入 数字 或 者 日 期 .限定 
填写 字数 、 限 定单 选 或 多 选 ,通过 这 些 方式 可 以 最 大 限度 地 规范 填报 的 信 
息 ,节省 后 期 数据 整理 的 时 间 。 

(3) 快速 收集 填写 的 数据 。PDF 文档 中 填写 的 内 容 可 以 一 次 性 批量 
导出 到 Excel, 并 且 能 保证 导出 的 格式 规范 、 统 一 。 用 这 种 方式 汇总 数据 
准确 、 快 速 , 比 Excel 或 者 Word 的 复制 .粘贴 操作 强 了 很 多 ,能 大 量 节省 
数据 整理 的 时 间 。 


老 梁 : Word 确实 不 好 控制 版 面 和 格式 ,每 次 发 下 去 ,等 收回 来 的 时 
候 格式 都 被 改 得 乱七八糟 ,填写 的 数据 也 很 难 汇总 ,复制 .粘贴 累 死 人 。 
但 是 ,PDF 文档 中 的 这 些 可 以 编辑 的 区 域 是 怎么 做 出 来 的 ,又 如 何 快速 
地 收集 数据 呢 ? 

Miss 陈 : 其 实 做 起 来 很 简单 ,这 需要 用 到 Acrobat 软件 。 你 可 能 知 
道 ,PDF 是 Adobe 公司 设计 发 明 的 一 种 跨 平台 的 文件 类 型 。 查 看 PDF 
的 软件 是 Acrobat Reader, 而 编辑 PDF 的 软件 就 是 Acrobat。 它 们 都 是 
Adobe 公司 的 产品 。 
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ZR: Adobe 公司 我 听 说 过 ,大 名 易 易 的 photoshop 就 是 Adobe 2 
司 的 产品 。Acrobat Reader 也 在 用 ,但 是 Acrobat 就 没 用 过 。 

Miss 陈 : 要 编辑 PDF 就 要 用 到 Acrobat。 装 好 Acrobat 之 后 ,就 可 
以 制作 可 填写 内 容 的 PDF 文件 了 。 简 单 来 说 ,只 需要 两 步 即 可 。 

第 一 步 : 在 Word 中 设计 问卷 ,保存 为 PDF 格式 。 在 Word 中 设计 
问卷 ,并 排 好 版 。 排 版 要 尽量 规范 ,需要 别人 填写 的 内 容 加 一 条 下 划 线 ， 
需要 单 选 的 在 选项 前 添加 “ 〇 ”, 需 要 复 选 的 在 选项 前 添加 * 口 ?”。 然 后 将 
文件 另存 为 PDF 格式 文档 。Word 2007 
及 以 上 版 本 都 可 以 将 文档 直接 保存 为 
PDF 格式 。 

第 二 步 : 在 Acrobat 中 打开 PDF Ж 
档 ,使 用 表单 工具 创建 表单 。Acrobat 将 
自动 识别 文件 中 需要 填写 的 内 容 , 如 各 种 
FUR O ` 口 等 符号 ,自动 将 它们 转化 为 
可 以 填写 的 表单 域 。Acrobat 中 的 表单 域 
如 图 2-10 所 示 。 

经 过 以 上 两 步 , 一 个 简单 的 可 以 填写 的 PDF 文档 就 制作 完成 了 。 看 
看 效果 吧 ,如 图 2-11 所 示 。 

老 梁 : 看 上 去 很 方便 啊 ! 用 Word 设计 好 问卷 并 另存 为 PDF 格式 ， 
然后 在 Acrobat 中 利用 表单 工具 就 可 以 自动 生成 可 填写 的 PDF 文档 。 

Miss 陈 : 是 的 ,在 实际 应 用 的 时 候 , 还 可 以 添加 一 些小 工具 来 规范 
输入 的 内 容 , 这 些小 工具 在 Acrobat 中 叫 作 表 单 域 。 包 括 文本 域 . 复 选 
框 单 选 钮 .列表 框 \ 下 拉 菜 单 、 按 钮 .数字 签名 、 条 形 码 ,等 等 。 灵 活 运 用 
这 些 表单 域 ,就 能 制作 满足 我 们 需要 的 PDF 文档 了 。 

老 梁 : 原来 PDF 还 可 以 添加 表单 域 啊 。 这 些 表单 域 看 上 去 很 像 
html 网 页 中 的 控件 ,Word 的 开发 工具 中 也 有 类 似 的 控件 , 倒 不 算 陌生 。 


2-10 Acrobat 中 的 表单 域 
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** 2и] Ж ЛУ ТИ E i] А5 

调查 问卷 说 明 : 

° 本 调查 问卷 共有 48 个 问题 ， 问 题 采用 单项 选择 的 方式 ， 简 明 扼要 并 易于 回答 . 
你 可 以 匿名 填写 此 份 调查 表 

本 调查 问卷 的 保密 级 为 A 级 ， 任 何 信息 都 将 严格 受到 保密 ， 所 以 你 可 以 放心 做 答 。 
当 有 超过 50% 的 题目 不 做 回答 时 ， 本 问卷 将 做 无效 处 理 。 

请 你 按 实际 情况 作答 ， 否 则 将 影响 调查 结果 


你 的 姓名 : = 所 在 部 门 : 财务 部 
你 的 职位 : 主管 入 职 年 限 : З 


[| кёк. 2 ___ 
性 wA 学 历程 度 : 


1. 你 对 自己 努力 付出 与 工资 回报 二 者 公平 性 的 感受 是 
© 完全 公平 
81 基本 公平 
© 不 确定 
© 不 公平 
© 非常 不 公平 
如 果 选 择 最 后 两 项 ， 请 写 明 简要 理由 或 感受 : 
图 2-11 可 填写 的 薪酬 满意 度 调查 问卷 


经 理 ,您 刚才 说 可 以 通过 PDF 快速 收集 填写 的 数据 ,这 是 真 的 吗 ? 

Miss 陈 : 是 真 的 。 当 我 们 将 PDF 问卷 回收 后 ,可 将 所 有 回收 的 PDF 
文件 放 到 一 个 文件 夹 中 ,然后 打开 Acrobat, 用 表单 选项 中 的 “合并 数据 
文件 到 电子 表格 ”选项 ,就 可 以 一 次 性 批量 将 数 百 乃 至 上 千 个 PDF 文档 
中 的 填写 数据 输出 到 一 个 Excel 文件 中 。 

在 输出 的 Excel 文件 中 ,第 一 行 是 表单 域 的 名 称 , 从 第 二 行 开始 就 是 
每 个 文件 填写 的 内 容 ,数据 排 量 相当 规范 ,与 数据 库 中 的 数据 表 类 似 。 

老 梁 : 太 方便 了 ,不 得 不 说 ,用 PDF 制作 问卷 来 收集 数据 实在 是 一 
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个 非常 方便 快捷 的 方式 啊 ,以 前 怎么 没 发 现 这 个 工具 呢 ? 
2.3.2 利用 互联 网 、 手 机 微 信 进行 问卷 调查 


Miss 陈 : 如 果 问 卷 内 容 的 涉 密 程 度 不 是 很 高 ,还 可 以 利用 互联 网 进 
行 问卷 调查 。 

老 梁 : 您 是 说 我 们 建立 一 个 服务 器 ,然后 把 问卷 发 布 到 网 上 吗 ? 

Miss 陈 : 不 是 ,这 样 成 本 会 很 高 。 网 上 已 经 有 不 少 在 线 问卷 发 布 网 
站 ,提供 了 平台 ,我 们 只 需要 把 问卷 导入 这 类 平台 ,就 可 以 发 布 问卷 了 。 
这 类 平台 通常 收费 较 低 ,有 些 甚至 是 免费 的 。 

但 是 由 于 问卷 内 容 和 填报 的 数据 都 放 到 了 网 上 ,信息 泄露 的 概率 升 
高 ,所 以 通常 仅 适 用 于 涉 密 程 度 不 是 很 高 的 问卷 调查 。 

老 梁 : 还 有 免费 的 啊 ? 会 不 会 功能 上 有 限制 呢 ? 比如 有 些 题 型 不 能 
添加 ,或 者 数据 达到 一 定 程度 就 要 收费 ,等 等 。 

Miss к: 这 类 网 站 形形色色 ,你 可 以 搜索 一 下 ,逐个 试 试看 ,看 看 各 
有 什么 特点 。 这 里 推荐 使 用 问卷 网 (www. wenjuan. com) ,理由 如 下 。 


(1) 基本 功能 完全 免费 ,不 限制 问卷 数量 、 题 型 .答题 人 数 , 无 广告 。 

(2) 统计 分 析 、 报 表 功 能 完善 ,原始 数据 可 以 随时 下 载 。 

(3) 问卷 类 型 多 样 ,排版 简洁 \ 干 净 。 

(4) 与 手机 微 信 衔接 很 好 ,可 以 通过 微 信 发 布 、 填 写 问 卷 ,问卷 提交 
后 可 以 给 微 信 发 送 实时 提醒 ,如 图 2-12 所 示 。 

老 梁 : 还 能 和 微 信 联系 起 来 , 太 好 了 ,这 样 员 工 不 用 打开 电脑 ,直接 


在 手机 上 就 可 以 填写 问卷 了 ,这 种 形式 符合 现在 移动 互联 网 的 发 展 形势 ， 
很 有 创意 啊 。 我 得 赶快 去 试 试 。 
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调查 问卷 说 明 : 

本 调查 问卷 共有 48 个 问题 ， 问 题 采 用 单项 选择 
的 方式 ， 简 明 扼要 并 易于 回答 。 

你 可 以 匿名 填写 此 份 调查 表 。 

本 调查 问卷 的 保密 级 为 A 级 ， 任 何 信息 都 将 严 
格 受到 保密 ， 所 以 你 可 以 放心 做 答 。 

当 有 超过 50% 的 题目 不 做 回答 时 ， 本 问卷 将 做 
无 效 处 理 。 

请 你 按 实际 情况 作答 ， 否 则 将 影响 调查 结果 。 


和 矩阵 填空 题 
你 的 姓名 


请 填写 


所 在 部 门 


请 填写 


你 的 职位 


图 2-12 手机 微 信 填写 薪酬 满意 度 调查 问卷 


@ 整理 数据 


241 关于 一 维 表 


老 梁 : 经 理 , 收 集 了 数据 之 后 ,是 不 是 就 可 以 进行 数据 分 析 了 呢 ? 
Miss 陈 : 这 需要 看 数据 的 质量 。 如 果 数 据 质 量 高 的 话 , 就 可 以 进行 
分 析 ; 如 果 数 据 质量 不 高 的 话 ,就 需要 进行 数据 整理 ,也 叫 作 数据 清洗 。 
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就 好 比 我 们 做 菜 ,蔬菜 可 能 含有 农药 要 用 水 漂洗 多 次 , 肉 需要 切 成 肉 丝 或 
肉 丁 , 鱼 要 去 鳞 清洗 肚 腹 等 ,这 是 将 原材料 加 工 成 可 以 豪 饪 的 形态 ,然后 
才 进 行 毫 饪 ,而 不 是 直接 就 开始 毫 饪 ,否则 做 出 来 的 菜 谁 也 不 敢 吃 。 数 据 
整理 就 是 对 数据 进行 清洗 的 过 程 ,清洗 后 才能 进行 数据 分 析 。 

遗憾 的 是 ,多 数 时 候 收 集 到 的 数据 质量 都 不 太 高 ,或 多 或 少 有 些 问 
题 , 所 以 需要 进行 数据 整理 ,而 且 这 个 过 程 是 数据 分 析 中 耗 时 最 长 的 。 

老 梁 : 那么 要 怎样 进行 数据 整理 呢 ? 

Miss 陈 : 首先 我 们 讲 一 个 数据 整理 中 比较 常见 的 问题 。 你 看 下 面 
的 两 张 表 , 表 中 数据 是 员工 绩效 考核 成 绩 , 表 2-1 和 表 2-2 的 数据 有 什么 


不 同 ? 
表 2-1 数据 整理 样 表 一 

部 门 “过 性别 Hanas 情绪 总 分 适应 总 分 

a1 45 | 05 10.00 

3 91 | 10: 82 7.91 

a2 1| 10. 29 | 10.29 9.00 

2| 10.29 | 10.06 10.00 

33 1| 15.25 | 12.90 12.00 

2] 342; T 12 31 9.38 

总 计 11.89 11.54 9.93 

R22 数据 整理 样 表 二 

ш | 员工 编号 | 性 别 部 门 | 绩效 总 分 | 适应 总 分 | 情绪 总 分 
1 1 1 1| 12.00| 11.00| 12.00 
2 2 1 3| 13.00| 10.00| 12.00 
3 3 1| 20.00| 10.00| 14.00 
4 4 2 2| 8.00| 12.00] _8.00 
5 5 2 3| 11.00 12.00| 12.00 
6 6 2 1| 11.00| 11.00] 10.00 
7 7 2 3| 14.00] 8.00| 11.00 
8 8 2 1| 11.00| 10.00| 13.00 
9 9 2 3| 6.00| 9.00| 10.00 
10 10 2 2 6.00] 6.00] _9.00 
11 11 1 1| 7.00| 10.00] 7.00 
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ER: 我 看 看 , 表 2-1 好 像 是 汇总 表 , 是 我 们 常用 来 做 报表 的 样式 ; 
ж 2-2 则 是 一 排 排 数据 , 像 是 数据 库 中 的 数据 表 。 

Miss 陈 : 是 的 。 平 常 我 们 用 表 2-1 的 表格 较 多 ,这 种 表格 称 为 二 维 
表 。 就 是 横 排 和 纵 列 分 别 代表 不 同 的 维度 ,甚至 多 个 维度 。 比 如 表 2-1 
中 , 横 排 是 考核 分 数 的 类 型 , 纵 列 是 部 门 和 性 别 。 绝 大 多 数 情况 下 ,这 种 
二 维 表 不 适合 做 数据 分 析 。 

ER: 您 的 意思 是 像 表 2-2 样式 的 表格 才 适 合 进行 数据 分 析 吗 ? 

Miss 陈 : 是 的 , 像 表 2-2 这 种 样式 的 数据 我 们 称 之 为 一 维 表 , 第 一 行 
代表 了 分 析 的 维度 ,从 第 二 行 开始 就 是 一 条 条 数据 。 在 不 同 的 知识 领域 ， 
一 维 表 的 叫 法 不 同 , 比 如 在 数据 库 中 ,一 维 表 叫 作 数据 表 ,第 一 行 是 字段 ， 
第 二 行 开 始 叫 作 记录 ;在 数据 分 析 中 ,第 一 行 叫 作 变量 ,从 第 二 行 开 始 叫 
作 观 测 值 。 

ЖЖ: 原来 如 此 ,我 以 前 接触 过 数据 库 , 对 这 种 形式 的 数据 还 是 有 些 
了 解 的 ,但 不 知道 数据 分 析 需 要 这 种 形式 。 

Miss Ж: 数据 分 析 领 域 绝 大 多 数 的 算法 ,都 是 基于 一 维 表 进 行 的 ， 
所 以 如 果 我 们 要 进行 数据 分 析 , 但 手头 上 只 有 二 维 表 , 就 必须 将 二 维 表 转 
换 为 一 维 表 ,才能 进行 数据 分 析 。 

老 梁 : 这 个 很 重要 ,我 们 很 多 报表 的 数据 都 是 二 维 表 , 照 这 样 看 都 不 能 
进行 数据 分 析 , 要 转换 成 一 维 表 才 行 。 但 是 怎样 将 二 维 表 转 换 成 一 维 表 
呢 ? 如 果 将 一 个 个 数据 拆 开 再 组 合 起 来 ,要 花 不 少时 间 呢 ,还 容易 出 错 。 

Miss 陈 : 这 种 二 维 表 转 一 维 表 的 数据 转换 可 以 用 Excel 来 做 ,整个 
操作 方便 又 快捷 。 以 表 2-3 的 数据 为 例 。 

表 2-3 是 性 别 和 三 个 评价 维度 组 成 的 二 维 表 , 其 中 绩效 总 分 、 情 绪 总 
分 、 适 应 总 分 都 是 对 员工 绩效 的 测评 结果 ,可 以 合并 为 一 个 变量 ,但 这 里 
分 成 了 三 个 变量 。 下 面 我 们 看 看 如 何 用 Excel 来 将 这 种 二 维 表 转 换 为 一 
维 表 。 
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R23 待 转换 的 二 维 表 


性 别 绩效 总 分 情绪 总 分 适应 总 分 
男 11.45 12.05 10.00 
女 10.91 10.82 7.91 
男 10.29 10.29 9.00 
女 10.29 10.06 10.00 
男 15.25 12.90 12.00 
Җ 12.06 12.31 9.38 


(1) 打开 Excel, 先 按 “Alt 十 D” 键 ,然后 再 按 “P” 键 ,在 弹出 的 对 话 框 
中 打开 “数据 透视 表 和 数据 透视 图 向 导 ” 对 话 框 , 选 中 "多 重合 并 计算 数据 
区 域 ”选项 ,如 图 2-13 所 示 。 


】 请 指定 待 分 析 数 据 的 数据 源 类 型 : 
OMicrosoft Excel 列表 或 数据 诛 
部 数据 源 


图 2-13 数据 透视 表 和 数据 透视 图 向 导 


(2) 选中 “创建 单 页 字段 ”选项 , 单 击 “下 一 页 ”按钮 ,如 图 2-14 所 示 。 
(3) 在 “选择 区 域 ” 中 选中 待 转换 的 二 维 表 , 单 击 “ 添 加 ”按钮 ,如 图 2-15 
(4) 单 击 “新 建 工作 表 ” 按 钮 ,再 单 击 “完成 ”按钮 ,此 时 会 生成 一 个 数 
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图 2-14 创建 单 页 字段 


数据 适 视 表 和 数据 适 视 图 向 导 - 第 2b , 共 3... 


请 键入 或 选 定 包 合 汇 总 数据 的 工作 表 数 据 区 域 。 


? x 


选 定 区 域 (R): 


Sheet21$BS1:$E$7 


E 
KARRU: 


图 2-15 添加 待 转换 的 数据 区 域 
HFR, wA 2-16 所 示 。 


(5) 双击 数据 透视 表 的 最 后 一 个 单元 格 ,Excel 会 自动 创建 一 个 新 的 
工作 表 , 新 的 工作 表 就 是 转换 后 的 一 维 表 ,具体 见 表 2-4。 
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图 2-16 生成 数据 透视 表 


表 2-4 转换 后 的 一 维 表 


老 梁 : 原来 Excel 还 有 这 种 隐藏 的 功能 啊 ! 
Miss 陈 : Excel 把 二 维 表 转 换 为 一 维 表 时 利用 了 数据 透视 表 的 功 
能 ,转换 过 程 显 得 简单 直观、 快捷 ,所 以 遇 到 这 种 情况 用 Excel 最 方便 。 
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当 把 数据 转换 为 一 维 表 后 ,就 可 以 导入 R 语言 进行 数据 的 整理 和 分 
析 了 。 


242 处理 缺失 值 


Miss к: 进行 数据 整理 时 最 常 磁 到 的 ,最 令 人 头疼 的 事情 是 出 现 数 
据 缺 失 ,就 是 数据 不 完整 ,出 现 了 空 值 。 这 种 缺失 会 影响 数据 分 析 的 效 
果 , 导 致 分 析 结 论 出 现 错 误 。 

老 梁 : 是 啊 , 辛 辛苦 苦 收 集 来 的 数据 ,发 现 这 里 缺少 数据 ,那里 缺少 
数据 ,很 头疼 。 这 种 缺失 情况 是 怎么 造成 的 呢 ? 

Miss 陈 : 造成 数据 缺失 的 原因 是 多 种 多 样 的 ,总 体 来 说 分 为 机 械 原 
因 和 人 为 原因 。 机 械 原因 是 指 由 于 硬件 原因 导致 数据 收集 或 保存 失败 而 
造成 的 数据 缺失 。 比 如 数据 存储 失败 ,存储 器 损坏 ,机械 故障 导致 某 段 时 
间 的 数据 未 能 收集 。 而 人 为 原因 是 人 的 主观 失误 历史 局 限 或 有 意 隐瞒 
造成 的 数据 缺失 ,比如 在 问卷 调研 中 填报 人 拒绝 透露 相关 问题 的 答案 ,或 
者 回答 的 问题 是 无 效 的 ` 是 谎言 ,再 比如 数据 录入 人 员 在 录入 数据 时 失 
误 , 漏 录 了 数据 ,等 等 。 这 些 原因 都 会 造成 数据 缺失 。 

ER: 那 怎 么 检查 数据 是 否 有 缺失 呢 ? 

Miss 陈 : 最 简单 的 办 法 是 打开 数据 看 看 。 

ER: 哎呀 ,糊涂 了 ,直接 打开 看 不 就 知道 了 吗 ? 哈哈 。 

Miss К: 如 果 数 据 量 大 的 的 话 ,直接 看 就 比较 花 时 间 了 。 在 数据 量 
大 的 情况 下 ,要 直观 了 解数 据 缺 失 情况 ,可 以 用 及 语言 中 的 VIM 包 函 数 
aggr 来 查看 。 以 我 们 公司 在 应 届 大 学 毕业 生 招聘 时 的 测评 数据 为 例 , 数 
据 见 表 2-5( 数 据 较 多 ,只 显示 了 其 中 一 部 分 )。 

其 缺失 值 情 况 经 分 析 绘 制 成 图 形 , 如 图 2-17 所 示 。 


51 


52 mE AKBP A 1 AREE 


R25 应 届 大 学 毕业 生 招聘 时 的 测评 数据 


序号 姓名 言语 理解 数学 逻辑 | 常识 成 就 导向 | 抗 压 能 力 | 灵活 性 ”| 影响 性 ”| 支配 性 | 外 向 性 
E 2 8.00 | 15.50 | 22.60 3.50 7.96 4.46 5.18 6.87 7.84 6.28 
2| 李 ** 9.00 | 11.50 | 17.80 4.20 6.01 4.46 3.54 4.21 5.63 5.14 
3| 伟 ** 10.00 9.50 12.00 4.90 5.62 6.86 5.72 6.87 6.37 6.66 
4| 叶 ** 9.00 | 12.50 | 15.90 4.90 4.46 6.27 7.53 8.57 6.28 
5| 韩 ** 15.00 | 24.80 | 25.60 | 10.80 4.84 5.06 2.45 4.21 4.90 5.52 
6 驹 ** 15.00 20.50 | 21.90 9.60 5.23 6.26 5.18 4.87 6.73 5.52 
了 | 姚 ** 10.50 | 22.50 | 24.50 | 10.80 5.38 7.11 4.63 4.87 4.90 4.76 
8| 余 ** 13.50 22.50 17.90 10.80 7.57 5.96 4.09 5.54 7.84 5.14 
9|#** 15.00 | 22.50 | 16.50 9.60 5.23 5.36 7.36 6.20 5.26 5.90 
10|]** 19.50 | 28.50 | 29.00 | 12.00 7.18 5.36 7.36 8.20 7.47 6.28 
MEI 18.00 | 24.50 | 37.00 | 12.00 3.62 3.56 8.45 2.88 2.69 3.61 
12| 林 ** 13.50 | 22.80 | 24.20 9.60 3.67 5.81 2.45 4.87 6.37 3.99 
13| 黄 ** 10.50 | 20.80 | 17.10 8.40 2.89 5.36 3.00 5.54 5.26 7.42 
ЕЗ 8.65 | 11.82 | 18.39 5.43 4.47 4.47 4.47 4.47 4.47 4.47 
15| 卢 ** 9.00 | 10.50 | 24.80 7.00 4.45 2.96 6.27 1.55 5.63 2.09 
l6 ** 13.50 10.80 | 24.80 7.20 4.84 6.46 4.09 2.21 3.06 7.04 


图 2-17 的 左边 是 缺失 值 在 各 个 变量 中 的 占 比 情况 ,右边 是 各 个 变量 
中 的 缺失 值 分 布 情况 ,黑色 代表 有 缺失 值 。 通 过 图 形 就 能 比较 直观 地 看 
到 缺失 值 的 情况 了 。 

处 理 缺 失 值 的 R 语句 如 下 : 

library (VIM) 

# 读 取 数 据 

d<-read.csv ("第 二 章 /毕业 生 数 据 .csv") 

# 检查 缺失 值 情况 

aggr (d) 

ER: MXA ЯНИ, kE АЛМ? 

Miss Ж: 别 担心 ,缺失 值 是 比较 常见 的 ,只 要 比例 不 超过 总 数据 量 
的 10%% ,影响 也 不 见得 很 大 。 不 过 咱们 还 是 要 对 这 些 缺 失 值 进行 处 理 。 

对 于 缺失 值 的 处 理 , 常 用 的 方法 有 : 直接 删除 法 .均值 插 补 法 、 同 类 
值 插 补 法 、 极 大 似 然 估计 法 、 多 重 插 补 法 。 

比较 简单 的 是 直接 删除 法 ,就 是 直接 将 有 缺失 值 的 那 行 数据 删除 ,但 
是 会 带 来 数据 信息 的 流失 。 如 果 数 据 量 很 大 ,并 且 缺 失 值 不 多 的 时 候 , 用 
直接 删除 法 不 失 为 一 种 简单 、 经 济 、 快 速 的 方法 。 
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缺失 比例 


0.000 0.002 0.004 0.006 0.008 0.010 
L 1 1 1 1 1 


灵活 性 
外 向 性 

创新 
严谨 性 


(a) 
缺失 值 分 布 


灵活 性 
外 向 性 
创新 


严谨 性 


(b) 
图 2-17 应 届 大 学 毕业 生 招聘 时 测评 数据 的 缺失 情况 
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比较 常用 的 方法 是 多 重 插 补 法 。 多 重 插 补 的 思想 源 于 贝 叶 斯 估计 ， 
该 理论 认为 待 插 补 的 值 是 随机 的 , 它 的 值 来 自己 观测 到 的 值 。 多 重 插 补 
通过 变量 间 关 系 来 预测 缺失 数据 ,利用 蒙特 卡 罗 方 法 生成 多 个 完整 数据 
集 , 再 对 这 些 数据 集 分 别 进行 分 析 , 最 后 对 这 些 分析 结 果 进 行 汇总 处 理 。 
在 R 语 言 中 是 使 用 mice 包 中 的 mice В. 

采用 多 层 插 补 法 的 R 语句 如 下 : 

library (mice) 

# 读 取 数 据 

d<- read. csv ("第 二 章 /毕业 生 数 据 .csv") 

# 采用 多 重 插 补 法 填补 缺失 数据 

dl<- mice (d) 

上 述 语句 中 ,已 经 通过 mice 函数 将 毕业 生 测 评 数据 的 缺失 值 进行 了 
多 重 插 补 运算 ,默认 生成 5 组 插 补 值 ,然后 存储 到 变量 dl 中 ,之 后 的 各 种 
分 析 用 dl 来 进行 即 可 。 

老 梁 : 多 重 插 补 法 虽然 比较 复杂 ,但 计算 过 程 交 给 函数 去 处 理 , 倒 也 
省 事 啊 。 
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老 梁 : 经 理 ,我 经 常 在 工作 中 遇 到 重复 数据 ,这 种 情况 是 否 也 要 处 理 
呢 ? 比如 前 两 天 我 们 收集 各 个 分 公司 培训 主管 的 个 人 数据 ,也 不 知道 上 
报 的 人 员 是 怎么 搞 的 , 报 上 来 的 数据 有 些 是 重复 的 , 拿 到 这 种 数据 要 怎么 
处 理 呢 ? 具体 数据 见 表 2-6。 

Miss 陈 : 重复 数据 也 是 常见 的 错误 数据 类 型 ,需要 进行 清洗 ,删除 
多 余 的 重复 数据 。 在 R 语言 中 可 以 用 unique 函数 进行 去 除 重复 数据 的 
操作 。 清 洗 后 的 结果 见 表 2-7, 
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表 2-6 各 分 公司 培训 主管 基本 信息 数据 (清洗 前 ) 


w 名 | 性别 H 位 层级 | 职业 资格 职 Ж 
地 平川 | £ | 高 级 人 力 资源 主管 | LB | 人 力 资源 管理 师 

Ж | + | 高 级 人 力 资源 业务 员 | 十 一 岗 | 助理 人 力 资源 管理 师 

ят | 男 | 人 力 资源 主办 十 岗 | 助理 人 力 资源 管理 师 | 助理 经 济 师 
ва а | 培训 主管 FH 

欧阳 志 远 | 女 | 高 级 人 力 资源 主办 | 九 岗 | 高 级 人 力 资源 管理 师 | 助理 工程 师 
李 力 持 | 男 | 职能 部 门 室 副 经 理 | 八 岗 | 高 级 人 力 资源 管理 师 | 工程 师 
нй | 女 | 高 级 主管 七 岗 | 人力 资源 管理 师 。 ”| 高 级 经 济 师 
陈 字 宙 “| к | 高 级 人 力主 管 七 岗 АТТАДЫ. 
эш | 女 | 人 力 资源 主办 FH 

张 元 |5 | 高 级 人 力 资源 主办 | 九 岗 | 物业 管理 师 助理 经 济 师 
яш ”| 男 | 高 级 人 力 资源 主办 | 九 岗 

王 一 帅 | 男 | 培训 招聘 主管 Ай 

нж | 女 | AES LB 工程 师 
张 元 ”| 男 | 高 级 人 力 资源 主办 | 九 岗 | 物业 管理 师 助理 经 济 师 
杨 ”| 女 | 高 级 人 力 资源 管理 员 | 十 一 岗 助理 工程 师 
жш | 女 | 高 级 人 力 资源 业务 员 | 十 一 岗 | 高 级 人 力 资源 管理 师 

杨 单 博 | 女 | 综合 室 副 经 理 ли | 高 级 人 力 资 源 管理 师 | 高 级 工程 师 
杨 | 女 | 高 级 人 力 资源 管理 员 | 十 一 岗 助理 工程 师 
йт | £ | 培训 主管 АМ | 计算 机 中 级 

孟津 ”| ШШЕН лн | 概 预算 员 工程 师 
郑 波 | £ | 辅助 办 事 员 十 五 岗 | 助 理 人 力 资 源 管 理 师 

朱 进 权 | £ | 高 级 人 力 资源 业务 员 | 十 岗 | 助理 人 力 资源 管理 师 | 助理 工程 师 
Fa | £ | 高 级 人 力 资源 主办 | 九 岗 | 高 级 人 力 资源 管理 师 | 经 济 师 
и | Жж | 人 力 资源 高 级 主管 | 七 岗 | 高 级 人 力 资源 管理 师 | 经 济 师 
ий 。 | 女 | 高 级 人 力 资源 主办 | AHB Moya н DATEN 
яше | £ | 办事员 == 
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续 表 
姓 名 | 性别 岗 位 层级 | 职业 资格 职 称 
ма ж | 人 力 资源 高 级 主管 | 七 岗 | 高 级 人 力 资源 管理 师 | 经济 师 
李 锐 ”| 女 | 高 级 人 力 资源 主办 | ЛА | 高 级 人 力 资源 管理 师 | 经 济 师 
E |a | 一 级 综合 业务 员 +i | 教师 资格 证 书 „сыш 
陈 侠 | 女 | 高 级 人 力 资源 业务 员 | 十 一 岗 
本 梅 。 | 女 | 高 级 人 力 资源 主管 高 级 人 力 资 源 管理 师 | 高 级 经 济 师 
жш 。 | 女 | 高 级 人 力 资源 主管 高 级 人 力 资源 管理 师 | 经 济 师 

Ра 监理 工程 师 、 信 息 系 
入 力 光源 部 培训 WJ. кы та 

师 .PMP 

RER | 女 | 高 级 人 力主 办 九 岗 | 高 级 人 力 资源 管理 师 | 经 济 师 
EWM | 男 | 高 级 设计 师 Ай 
WAR | 女 | 人 力 资源 主办 十 岗 | 人力 资源 管理 师 

| 监理 工程 师 、 信 息 系 
ак |а Ааа ш [EREE кыты 

师 .PMP 
表 2-7 各 分 公司 培训 主管 基本 信息 数据 (清洗 后 ) 

姓 名 | 性 别 岗 位 层级 | 职业 资格 ШЕ? 
李 平川 | 女 | 高 级 人 力 资源 主管 | 七 岗 | 人 力 资源 管理 师 
BUR | ж | 高 级 人 力 资源 业务 员 | 十 一 岗 | 助理 人 力 资源 管理 师 
吴 雷 |5 | 人 力 资 源 主办 十 岗 | 助理 人 力 资源 管理 师 | 助理 经 济 师 
ва ж | 培训 主管 +B 
欧阳 志 远 | 女 | 高 级 人 力 资源 主办 | JU | 高 级 人 力 资源 管理 师 | 助理 工程 师 
李 力 持 | 男 | 职能 部 门 室 副 经 理 | 八 岗 | 高 级 人 力 资源 管理 师 | 工程 师 
BD | 女 | 高 级 主管 ER | 人 力 资源 管理 师 。 ”| 高 级 经 济 师 
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续 表 
ж 名 [性 别 岗 位 层级 | 职业 资格 职称 
陈 字 宙 “| ж | 高 级 人 力主 管 七 岗 ана 高 级 经 济 师 
mi | 女 | 人 力 资源 主办 +Ë 

张 元 |5 | 高 级 人 力 资源 主办 | 九 岗 | 物业 管理 师 助理 经 济 师 
зак ”| 男 | 高 级 人 力 资源 主办 | ЛЮ 

жр | 男 | 培训 招聘 主管 АМ 

王 南 溪 | 女 n 七 岗 工程 师 
杨 | 女 | 高 级 人 力 资源 管理 员 | 十 一 岗 助理 工程 师 
жш | 女 | 高 级 人 力 资源 业务 员 | 十 一 岗 | 高 级 人 力 资源 管理 师 

杨 单 博 | 女 | 综合 室 副 经 理 AB | 高 级 人 力 资源 管理 师 | 高 级 工程 师 
йт | 女 | 培训 主管 АМ | 计算 机 中 级 

孟津 | 男 | 培训 主管 九 岗 | 概 预 算 员 工程 师 
郑 波 | 女 | 辅助 办 事 员 十 五 岗 | 助理 人 力 资源 管理 师 

朱 进 权 | 女 | 高 级 人 力 资源 业务 员 | 十 岗 | 助理 人 力 资源 管理 师 | 助理 工程 师 
李 锐 | 女 | 高 级 人 力 资源 主办 | 九 岗 | 高 级 人 力 资源 管理 师 | 经 济 师 
ма |ж | 人力 资源 高 级 主管 “| 七 岗 | 高 级 人 力 资源 管理 师 | 经 济 师 
ий | ж | 高 级 人 力 资源 主办 | 九 岗 улуулу | DE TË 
ийт | k | 办 事 员 十 一 岗 

Aa |a | 一 级 综合 业务 员 +i | 教师 资格 证 书 аны 
陈 侠 | 女 | 高 级 人 力 资 源 业务 员 | 十 一 岗 

= 。 | 女 | 高 级 人 力 资源 主管 | 七 岗 | 高 级 人 力 资源 管理 师 | 高 级 经 济 师 
жш 。 | 女 | 高 级 人 力 资源 主管 | 七 岗 | 高 级 人 力 资源 管理 师 | 经济 师 
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续 表 
姓 名 | 性 别 岗 位 层级 职业 资格 职 称 
监理 工程 师 、 信 息 系 
人 力 资源 部 培训 室 | ，。 | 统 监 理 师 、 评 标 专家 、 
余 水 男 经 理 七 岗 概 预算 、 安全 工程 | 高 级 工程 师 
JH, PMP 
RER | 女 | 高 级 人 力主 办 九 岗 | 高 级 人 力 资源 管理 师 | 经 济 师 
ШИК | 男 | 高 级 设计 师 九 岗 
郑 启 荣 | 女 | 人 力 资源 主办 十 岗 | 人 力 资 源 管理 师 


处 理 重复 数据 的 R 语 句 如 下 : 


d<-read.csv(" 第 二 章 / 培 训 人 员 信 息 .csv") 

# 剔除 重复 数据 

d<-unique (d) 

ОЕ М {Ит BJ ЖЕ 

write.csv(d, "第 二 章 /培训 人 员 信 息 (去 重复 ) .csv") 


ER: 真 方便 ,原来 R 语言 中 剔除 重复 数据 用 一 个 函数 就 完成 了 啊 。 
2.44 数据 分 组 


Miss Ж. 老 梁 ,再 问 你 一 个 问题 ,你 遇 到 过 需要 对 数据 进行 分 组 的 
情况 吗 ? 

老 梁 : 经 常 遇 到 ,比如 按 年 龄 段 分 组 , 按 单位 分 组 , 按 薪酬 等 级 分 组 
等 ,分 组 之 后 就 可 以 按 组 别 进行 统计 。 

Miss Ж: 嗯 ,分 组 也 是 进行 数据 整理 的 一 个 重要 环节 。 在 数据 分 析 
领域 ,这 种 分 组 叫 作 分 类 ,是 将 连续 数据 转换 为 类 别 (因子 ) 数 据 的 过 程 。 
举 个 例子 ,就 用 刚才 各 分 公司 培训 人 员 数 据 。 我 们 知道 每 个 人 都 有 年 龄 ， 
现在 我 们 拟 对 年 龄 进行 分 组 。 根 据 观察 ,最 小 的 20 岁 , 最 大 的 45 岁 , 可 
以 分 为 三 个 组 别 ,分别 是 : D30 岁 及 以 下 ; @ 大 于 30 岁 小 于 等 于 40 岁 ; 
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@ 大 于 40 岁 小 于 等 于 50 岁 。 我 们 就 按照 这 个 规则 对 数据 进行 分 组 吧 ， 
分 组 后 的 数据 见 表 2-8 ,分 组 结果 见 “ 年 龄 组 字段 。 


表 2-8 各 分 公司 培训 主管 基本 信息 数据 (分 组 数据 ) 
EN 


姓 名 | 性 别 岗位 | 层级 | 职业 资格 | 职称 ( 岁 ) 年 龄 组 
高 级 人 力 资 源 | ，。 | 人 力 资 源 管 Е 
李 平川 | 女 主管 七 岗 理 师 39 |30 一 40 岁 
高 级 人 力 资源 ы | 助理 人 力 资 30 岁 及 
AER | 女 | 业务 员 十 一 岗 | 源 管理 师 30 шк 
ш ШАЛУ 
RE B | 人 力 资源 主办 | 十 岗 源 管理 师 助理 经 济 师 | 39 |30 一 40 岁 
7 * | 培训 主管 十 岗 40 |30 一 40 岁 
E 高 级 人 力 资 源 | ，。 | 高 级 人 力 资 
欧阳 志 远 | 女 主办 九 岗 源 管理 师 助理 工程 师 | 45 |40 一 50 2 
职能 部 门 室 | ，。 | 高 级 人 力 资 
李 力 持 | 男 副 经 理 八 岗 源 管理 师 工程 师 22 |30 岁 及 以 下 
йен | 女 | 高 级 主管 | 七 岗 | 全 庆生 生生 高 级 经 济 师 | 35 0409 
人 力 资源 管 
陈 宇宙 | 女 | 高 级 人 力主 管 | 七 岗 | 理 师 、 内 部 | 高 级 经 济 师 | 33 |30 一 40 2 
培训 师 
罗 敏 女 | 人 力 资源 主办 | 十 岗 40 |30—40 岁 
张 元 | 男 АЛИ лы | 物业 管理 师 | 助理 经 济 师 | 26 |30 岁 及 以 下 
i 高 级 人 力 资源 | ，。 _ 
жїк 男 主办 九 岗 39 |30 一 40 岁 
王 一 帅 | 男 | 培训 招聘 主管 | 八 岗 33 |30 一 40 岁 
王 南 溪 | х | 总 工 室 技 术 管 | 七 岗 工程 师 | 36 |30~40 2 


理 室 经 理 
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续 表 
TA 年 龄 
姓 名 | 性 别 | 岗 位 | 层 级 | 职业 资格 | 职称 ( 岁 ) 年 龄 组 
张 元 |a PANAI hi | 物业 管理 师 | 助理 经 济 师 | 22 so 岁 及 以 下 
高 级 人 力 资源 
杨 一 女 管理 员 T-A 助理 工程 师 | 21 30 岁 及 以 下 
高 级 人 力 资源 ы | 高 级 人 力 资 
эш | 女 | 业务 员 | 十 一 岗 | 源 管理 师 se аа 
高 级 人 力 资 
杨 单 博 | 女 | 综合 室 副 经 理 | 八 岗 源 管理 师 高 级 工程 师 | 42 |40—50 岁 
高 级 人 力 资源 i 
杨 一 女 管理 员 十 一 岗 助理 工程 师 | 33 |30 一 40 岁 
范 丁 女 | 培训 主管 八 岗 | 计算 机 中 级 40 |30—40 岁 
孟津 男 | 培训 主管 九 岗 | 概 预算 员 | 工程 师 43 |40 一 50 岁 
ы | 助理 人 力 资 
郑 波 女 | 辅助 办 事 员 “| 十 五 岗 源 管理 师 43 |40 一 50 岁 
高 级 人 力 资源 | ，。， | 助理 人 力 资 
朱 进 权 | 女 业务 员 十 岗 源 管理 师 助理 工程 师 | 30 |30 岁 及 以 下 
高 级 人 力 资源 | ，。 | 高 级 人 力 资 
李 锐 女 + 九 岗 源 管理 师 经 济 师 43 |40 一 50 Ж 
人 力 资源 高 级 | ，。 | 高 级 人 力 资 y 
fT 88 % 主管 Ей 源 管理 师 经 济 师 28 |30 岁 及 以 下 
高 级 人 力 资 
高 级 人 力 资源 | ，。 | 源 管理 师 、 
白 钢 女 主办 АЖ 劳动 关系 协 | 助理 工程 师 40 |30 一 40 岁 
调 师 
夏琳 香 | 女 | 办 事 员 t= 23 |30 岁 及 以 下 
人 力 资源 高 级 | ，。 | 高 级 人 力 资 
ШЕЛ 女 主管 七 岗 源 管理 师 经 济 师 25 |30 岁 及 以 下 
高 级 人 力 资源 | ，。 | 高 级 人 力 资 
李 锐 女 主办 九 岗 源 管理 师 经 济 师 32 |30—40 岁 


第 2 章 数据 分 析 前 的 准备 工作 晶 


续 表 
ы. ж 年 龄 
姓 名 | 性 别 岗 位 | 层级 | 职业 资格 R Ж |( 罗 ) 年 龄 组 
一 级 综合 业 | 教师 资格 | 幼儿 园 一 级 
Жж x< 务 员 十 一 岗 证 书 教师 27 |30 岁 及 以 下 
高 级 人 力 资源 PEP У 
陈 侠 x< 业务 员 十 一 岗 29 |30 岁 及 以 下 
高 级 人 力 资 源 | oa | 高 级 人 力 资 ӨЗ 
李 梅 女 主管 七 岗 源 管理 师 高 级 经 济 师 | 35 |30 一 40 岁 
高 级 人 力 资 源 | ，。 | 高 级 人 力 资 
孟 丽 x< 主管 七 岗 源 管理 师 经 济 师 20 |30 岁 及 以 下 
监理 工程 师 、 
信息 系统 监 
人 力 资 源 部 | ，。 | 理 师 . 评 标 专 
余 水 男 培训 室 经 理 七 岗 家 、 概 预算 、 高 级 工程 师 | 33 |30 一 40 岁 
安全 工程 
师 .PMP 
u BAADA 
RER | 女 | 高 级 人 力主 办 | 九 岗 源 管理 师 经 济 师 40 |30 一 40 岁 
ЖЫК ”| 男 | 高 级 设计 师 | 九 岗 31 |30—40 岁 
郑 启 荣 | 女 | 人力 资源 主办 | 十 岗 s 24 |30 岁 及 以 下 
监理 工程 师 、 
信息 系统 监 
人 力 资源 部 培 | ，,,，| 理 师 、 评 标 专 
余 水 |3 | 训 室 经 理 | 七 岗 | 家 、 梳 预算 .| 高 级 工程 师 | 31 130-409 
安全 工程 
师 .PMP 


进行 数据 分 组 的 R 语 句 如 下 : 


d<-read.csv ("第 二 章 /培训 人 员 信 息 .csv") 


# 数 据 分 组 ( 按 年 龄 分 组 ) 


а Е < - cut (154, ргеакѕ= с (0, 30, 40, 50), labels=c ("30 # KWA 


61 


62 


里 大 数据 时 代 的 人 力 资源 管理 


F", "30—40 3 ", "40—50 22 ")) 

# 保 存 分 组 后 的 数据 

write.csv(dv" 第 二 章 /培训 人 员 信息 (分 组 ) .csv") 

老 梁 : 明白 了 。 不 过 在 数据 分 析 中 将 原始 的 连续 数据 转换 为 分 组 数 
据 有 什么 特别 用 意 吗 ? 

Miss 陈 : 是 的 ,分 组 后 有 许多 好 处 呢 , 最 直接 的 好 处 就 是 方便 进行 
分 组 统计 ,可 以 计算 每 组 数据 的 均值 .方差 等 ;还 可 以 进行 组 间 对 比分 析 ， 
研究 不 同 组 之 间 的 差异 情况 ,比如 可 以 分 析 不 同年 龄 组 人 员 之 间 的 绩效 
是 否 有 差异 ,哪个 年 龄 组 绩效 最 高 ,哪个 最 低 ; 更 重要 的 是 分 组 数据 还 可 
以 通过 一 些 算法 进行 预测 ,如 通过 判别 分 析 、 机 器 学 习 等 算法 可 以 建立 分 
析 模 型 ,用 模型 对 未 知情 况 进 行 预测 。 你 还 记得 前 段 时 间 网 上 流行 的 传 
照片 测 年 龄 的 游戏 吗 ? 

老 梁 : 记得 记得 ,就 是 把 照片 传 到 一 个 网 站 上 ,该 网 站 就 能 显示 照片 
中 每 个 人 的 年 龄 。 我 们 都 试 了 一 下 ,还 挺 准 呢 。 现 在 有 些 手 机 在 照相 时 
也 可 以 显示 年 龄 , 挺 神奇 。 这 是 怎么 做 到 的 呢 ? 难道 和 数据 分 组 有 关 
系 吗 ? 

Miss K: 其 实 是 运用 了 分 类 算法 ,年 龄 就 是 分 组 ,只 不 过 这 个 分 组 
比较 细 , 按 1 岁 来 分 组 。 在 收集 了 大 量 的 人 脸 信息 数据 和 年 龄 数据 后 ,就 
可 以 通过 统计 分 析 软 件 ,用 分 类 算法 建立 统计 模型 ,模型 建立 之 后 就 可 以 
根据 照片 中 的 人 脸 信息 计算 年 龄 了 。 

老 梁 : 原来 如 此 。 


245 生成 新 数据 


Miss К: 还 有 些 时 候 ,我们 想 根据 一 列 数据 生成 另 一 列 数 据 ,用 新 
生成 的 数据 来 进行 分 析 , 这 时 候 就 需要 通过 计算 产生 新 变量 。 
老 梁 : 嗯 , 常 碰 到 这 种 情况 呢 。 我 上 个 月 进行 员工 薪酬 分 析 的 时 候 ， 
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想 要 分 析 员工 薪酬 和 市 场 薪酬 之 间 的 差距 ,就 通过 计算 直接 得 出 员工 薪 
酬 和 市 场 薪 酬 之 间 的 差距 ,然后 再 进行 分 析 。 

Miss 陈 : 对 于 通过 计算 生成 新 变量 的 情况 ,只 要 我 们 确定 了 计算 规 
则 , 剩 下 的 就 好 办 了 。 还 是 拿 刚才 培训 人 员 的 数据 来 举例 吧 ,如 我 们 公司 
员工 的 平均 年 龄 是 29 岁 ,现在 想 知道 每 个 人 的 年 龄 和 平均 年 龄 之 间 的 差 
距 是 多 少 。 这 时 ,我 们 需要 生成 一 个 新 的 变量 ,用 来 保存 年 龄 差距 ,可 以 
将 这 个 变量 命名 为 “与 平均 年 龄 之 差 %。 这 个 新 变量 的 计算 规则 比较 简 
单 ,是 员工 年 龄 与 平均 年 龄 之 差 , 通 过 计算 ,结果 见 表 2-9。 


表 2-9 各 分 公司 培训 主管 基本 信息 数据 (生成 新 数据 ) 


性 | — l гету SEH 
ва m ü | 层级 | 职业 资格 | 职称 On easa 
本 平川 | 女 et 七 岗 | 人 力 资源 管理 师 з9 | 10 

高 级 人 力 资源 | 。 ,| 助理 人 力 资 源 
周 雅 松 < 业务 员 十 一 岗 管理 师 30 1 
| 助理 人 力 资源 
吴 雷 | 男 | 人 力 资源 主办 | 十 岗 ал 助理 经 济 师 | 39 | 10 
л 女 | 培 训 主管 TA 40 11 
| Barsan ‚„ | 高 级 人 力 资源 
欧阳 志 远 | 女 主办 九 岗 管理 师 助理 工程 师 | 45 16 
职能 部 门 室 副 | ，， | 高 级 人 力 资源 
李 力 持 |9 经 理 八 岗 管理 师 工程 师 22 1 
HEM | 女 | 高 级 主管 七 岗 | 人 力 资源 管理 师 | 高 级 经 济 师 | 35 | 6 
E | 人 力 资源 管理 
陈 字 宙 “| 女 | 高 级 人 力主 管 | 七 岗 A hamusa 高 级 经 济 师 | 33 | а 
罗 敏 。 | 女 | 人 力 资源 主办 | 十 岗 w| n 
张 元 |5 九 岗 | 物业 管理 师 | 助理 经 济 师 | 26 | —3 
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续 表 
є & на | 层级 | 职业 资格 | 职称 | 人 | 人 
жї 男 ee да 九 岗 39 10 
= JM | 男 | 培训 招聘 主管 | АМ 3| 4 
=E ТЕВЕ ti 工程 师 “|36| 7 
张 元 и ААИ лы 物业 管理 师 。 | 助理 经 济 师 | 22 | 一? 
и | ИЛИИ A 助理 工程 师 | 21 | 一 8 
2 k YAR +m Pm U 37 | 8 
杨 单 博 “| 女 | 综合 室 副 经 理 | дщ жые ышы 高 级 工程 师 | 42 | 13 
и | ИЛЛИ = 助理 工程 师 | 33 | 4 
ит | 女 | 培训 主管 。 | AB | 计算 机 中 级 ою] n 
孟津 。 | 男 | 培 训 主管 。 |ли | 概 预 算 员 тый e| 14 
郑 波 k 辅助 办 事 员 HEN pam U 13| N 
жин +< АЗА) +И ШАУ U mare зо 1 
= a НЕЛЛИ ли МААЛ gm а u 
на ЛЕНИ) жи НЕЛЛИ аар | 28 | 一 1 
ЫЕ кна а 


系 协 调 师 
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续 表 
ҥ о, 年 龄 | 与 平均 
вар 岗位 | 层级 | 职业 资格 | 职称 O lene 
夏琳 香 | 女 | 办 事 员 十 一 岗 з | 一 
人 力 资源 高 级 | ，。 | 高 级 人 力 资源 Е 
ма lakā єн ani 经 济 师 125 | а 
高 级 人 力 资源 | ， ， | 高 级 人 力 资源 
李 锐 女 | 主办 九 岗 管理 师 经 济 师 32 3 
一 级 综合 业 | 。 Гал g 
m alza 十 一 岗 教师 资格 证 书 [ыр 27 | — 
高 级 人 力 资源 | 。 
陈 侠 女 业务 员 += 29 0 
高 级 人 力 资源 | ，。 | 高 级 人 力 资 源 
李 梅 女 主管 七 岗 管理 师 高 级 经 济 师 | 35 6 
高 级 人 力 资源 | ，,。 | 高 级 人 力 资源 
重 丽 女 主管 七 岗 管理 师 经 济 师 20 9 
监理 工程 师 、 信 
息 系统 监理 师 、 
ax | е ыа 七 岗 | 评 标 专家 、 概 预 | 高 级 工程 师 | 33 | 4 
° 算 、 安 全 工程 
Jif, PMP 
u | 高 级 人 力 资源 
RER “| 女 | 高 级 人 力主 办 | 九 岗 аА ёш || п 
ЖЕК ”| 男 | 高 级 设计 师 九 岗 31 2 
MAR | 女 | 人 力 资源 主办 | 十 岗 | 人力 资源 管理 师 м | —5 
监理 工程 师 . 信 
息 系统 监理 师 、 
Ak ||] ЫШ ti | 评 标 专家 、 概 预 | 高 级 工程 师 | 31 | 2 
i #. 安全 工程 
师 .PMP 


生成 新 数据 的 R 语句 如 下 : 
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d<-read.csv(" 第 二 章 / 培 训 人 员 信 息 .csv") 

# 生 成 新 变量 

d 与 平均 年 龄 之 差 <- ds 年 龄 - 29 

# 保 存 计算 后 的 数据 

write.csv(dv" 第 二 章 / 培 训 人 员 信 息 (计算 新 变量 ) .csv") 

老 梁 : 原来 是 这 样 生成 新 变量 的 ,看 上 去 只 要 知道 了 新 变量 的 计算 
规则 ,就 很 容易 操作 了 。 

Miss 陈 : 是 的 。 关 于 数据 整理 咱们 就 谈 这 么 多 。 你 明白 了 吧 ,数据 
整理 涉及 很 多 方面 的 内 容 。 

老 梁 : 是 啊 , 没 想到 整理 数据 这 么 麻烦 。 

Miss 陈 : 其 实数 据 整理 还 不 止 这 些 内 容 。 

老 梁 : 经 理 ,还 有 什么 技术 ,您 给 点 提示 吧 。 如 果 您 没有 时 间 , 我 们 
可 以 自己 去 找 资 料 学 习 啊 。 

Miss 陈 : 在 数据 整理 方面 ,还 有 一 些 技 术 我 们 没 讲 到 ,包括 以 下 
方面 。 


(1) 数据 抽样 : 如 果 数据 量 很 大 ,导致 数据 分 析 速 度 很 慢 , 可 以 考虑 
通过 数据 抽样 的 方法 ,抽取 一 部 分 数据 作为 样本 ,来 代表 总 体 进行 分 析 。 

(2) 嗓 声 处 理 : 就 是 异常 值 的 处 理 。 有 时 候 数据 包含 一 些 极端 值 、 异 
常 值 ,这 些 数据 的 存在 会 较 大 地 影响 数据 分 析 、 建 模 、 预 测 的 结果 ,可 以 通 
过 噪声 处 理 的 技术 剔除 这 些 数据 。 

(3) 数据 集成 : 如 果 有 多 个 相关 联 的 数据 表 , 比 如 有 员工 培训 、 薪 酬 、 
绩效 考核 三 张 表 , 都 与 员工 相关 ,那么 可 以 通过 数据 集成 的 技术 将 这 三 张 
表 合 并 成 一 张 表 ,进行 分 析 , 这 有 点 儿 像 数据 库 中 的 数据 表 联 结 。 

(4) 数据 标准 化 : 将 不 同 量 岗 的 数据 转换 为 量 纲 一 致 的 数据 ,以 避免 
因为 量 岗 不 同 带 来 的 分 析 误 差 。 一 般 是 将 不 同 量 岗 的 数据 进行 标准 化 或 
者 归 一 化 ,转换 为 标准 分 或 者 [一 1,1] 之 间 的 数值 。 
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老 梁 : 难怪 数据 整理 要 花 很 多 时 间 , 原 来 有 这 么 多 内 容 要 处 理 ,我 得 
赶快 去 网 上 查找 资料 学 习 一 下 ,免得 连 数据 都 整理 不 好 ,就 更 别提 进行 后 
续 的 分 析 了 。 还 有 ,今后 要 求 各 个 分 公司 报 数 据 时 一 定 要 准确 ,一 旦 发 现 
不 准确 的 就 退回 重 报 。 咱 们 得 把 数据 整理 的 工作 分 摊 给 大 家 ,尽量 保证 
快速 高 效 地 收集 高 质量 的 数据 ,减少 数据 整理 的 时 间 。 

Miss 陈 : 老 梁 你 果然 是 位 经 验 丰富 的 人 力 资源 管理 人 员 啊 ,知道 从 
管理 方式 人 手 改进 数据 质量 。 


= 
= 
第 3 章 


员工 年 度 需 求 预测 


导语 : 传统 的 员工 年 度 需求 预测 多 采用 自 下 而 上 的 方 
法 ,由 下 属 单位 上 报 需求 汇总 而 成 ;或 者 用 经 验 法 进行 预测 。 
这 些 方 法 存在 预测 精度 不 高 ,误差 较 大 等 问题 。 本 章 介 绍 模 
型 法 , 即 在 收集 与 用 工 需求 相关 历史 数据 的 基础 上 ,通过 建 
立 回归 模型 ,比较 准确 地 预测 公司 下 一 年 度 的 员工 需求 。 
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某 天 ,小 肖 来 到 Miss 陈 办公 室 汇报 工作 , 提 到 公司 明年 的 员工 招聘 
计划 。 

小 肖 : 经 理 , 近 期 要 制订 明年 的 员工 招聘 计划 了 ,但 是 我 对 明年 需要 
招聘 的 新 员工 人 数 没有 把 握 , 您 给 指导 指导 吧 。 

Miss 陈 : 那 你 说 说 公司 往年 是 怎样 确定 员工 需求 人 数 的 。 

小 肖 : 以 前 我 们 用 的 方法 比较 简单 ,采取 上 报 制 度 ,通过 层 层 上 报 ， 
让 下 属 单位 上 报 需求 人 数 , 然 后 我 们 汇总 需求 ,以 此 作为 公司 下 一 年 的 员 
工 需 求人 数 基 数 ,制订 招聘 计划 。 至 于 下 属 单位 是 如 何 确定 需求 人 数 的 ， 
我 们 没有 干预 。 

Miss 陈 : 你 是 不 是 觉得 这 种 方式 有 问题 呢 ? 

小 肖 : 是 的 ,最 明显 的 问题 是 需求 人 数 不 准确 。 最 近 几 年 下 属 单位 
上 报 的 需求 人 数 往往 不 够 准确 ,甚至 会 出 现 比 较 大 的 偏差 ,给 我 们 的 招聘 
工作 带 来 了 困扰 。 

比如 ,各 单位 上 报应 届 毕 业 生 需求 ,通常 在 9 月 上 报 , 实 际 招聘 要 持 
续 到 下 一 年 四 五 月 才 结束 ,时 间 跨 度 比较 大 ,在 这 个 过 程 中 各 单位 的 毕业 
生 需 求 会 发 生变 化 ,但 这 种 变化 很 晚 才 能 反馈 到 我 们 这 里 。 等 到 我 们 已 
经 跟 应 届 毕 业 生 签订 了 三 方 协议 后 ,用 人 单位 突然 告诉 我 们 不 需要 招聘 
了 ,因为 没有 用 工 需求 了 。 您 想 想 这 时 候 多 郁闷 啊 , 人 都 招聘 好 了 ,用 人 
单位 却 不 要 了 , 搞 得 我 们 很 被 动 ,工作 比较 难 做 啊 。 

Miss Ж: 这 人 么 说 来 ,你 是 希望 较为 准确 地 预测 下 一 年 度 公司 的 
需求 人 数 , 以 此 为 基础 制订 公司 年 度 招 聘 计划 ,对 吗 ? 

小 肖 : 是 的 ,这 个 问题 困扰 我 们 好 几 年 了 , 真 头疼 ,不 知道 有 什么 好 


T 
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办 法 。 

Miss 陈 : 其 实 可 以 试 试 通过 数据 分 析 的 方法 来 预测 公司 下 一 年 的 
员工 需求 人 数 ,再 结合 各 单位 上 报 的 需求 进行 矫正 ,就 可 以 得 到 较为 准确 
的 员工 需求 人 数 了 。 

小 肖 : 我 们 自己 来 预测 吗 ? 用 什么 方法 呢 ? 

Miss Ж: 是 的 ,可 以 用 回归 分 析 的 方法 进行 员工 需求 人 数 的 预测 。 

小 肖 : 好 像 听 说 过 这 种 方法 ,不 过 没 深入 了 解 过 ,看 来 得 向 您 请 
教 了 。 

Miss Ж: 这 样 吧 , 你 先 去 找 一 些 回归 分 析 方 法 应 用 方面 的 资料 , 然 
后 准备 一 些 公司 的 历史 数据 ,包括 经 营 数据 、 人 员 数 量 等 ,年 份 越 多 越 好 。 
准备 好 后 ,我们 再 继续 谈 回 归 分 析 。 给 你 一 周 的 时 间 吧 。 

小 肖 : 好 的 ,我 马上 去 处 理 。 


图 分 析 方法 


321 回归 分 析 


一 周 后 ,小 肖 来 的 Miss 陈 的 办 公 室 。 

Miss 陈 : 准备 得 怎么 样 ? 

小 肖 : 经 理 , 我 查阅 了 一 些 回 归 分 析 方法 应 用 的 知识 ,感觉 很 有 收 
获 呢 。 

Miss 陈 : 那 我 先 问 个 问题 ,请 你 说 说 什么 是 回归 分 析 ? 

小 肖 : 嗯 ,这 点 我 专门 下 功夫 研究 了 一 下 ,基本 了 解 回归 分 析 的 来 龙 
去 脉 。 首 先 ,我 很 好 奇 回 归 这 个 词 是 什么 意思 ,于 是 在 网 上 查 了 资料 ,发 
现 这 个 词 是 由 英国 遗传 学 家 Galton 首先 提出 的 。 在 不 太 遥 远 的 100 多 
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年 前 ,Galton 发 现 了 一 种 现象 : 他 发 现 父亲 高 ,往往 子女 也 高 ,父亲 矮 , 子 
女 也 矮 ; 但 是 当 父 亲 很 高 时 ,他 的 儿子 一 般 不 会 比 父亲 更 高 , 当 父 亲 很 矮 
时 ,他 的 儿子 一 般 不 会 比 父亲 矮 ,儿子 的 身高 会 向 一 般 人 的 均值 靠 扰 。 这 
位 遗传 学 家 将 这 种 现象 称 为 “向 均 数 回归 ”, 从 此 产生 了 “回归 ”这 样 一 个 

Miss 陈 : 很 好 ,了 解 历史 是 学 习 知 识 的 有 效 方法 , 那 你 再 说 说 什么 
是 回归 分 析 。 

小 肖 : 回归 分 析 是 最 为 常用 的 寻找 影响 因素 的 统计 分 析 方 法 。 包 括 
两 个 组 成 部 分 : 因 变 量 和 自 变 量 。 因 变量 顾名思义 ,就 是 因为 某 些 原因 
而 产生 变化 的 变量 ,是 对 结果 的 描述 ,多 数 情况 下 只 有 一 个 因 变 量 ; 自 变 
量 可 想 而 知 ,就 是 自身 发 生变 化 的 变量 ,是 影响 结果 的 各 种 原因 的 描述 。 
自 变 量 可 以 是 一 个 ,也 可 以 是 多 个 ,通常 都 会 有 多 个 自 变量 。 比 如 ,我 们 
等 会 儿 要 用 公司 的 经 营 数据 去 分 析 和 预测 员工 需求 数量 ,那么 自 变 量 就 
是 经 营 数据 , 因 变 量 就 是 员工 数量 。 

Miss 陈 : 不 错 ,看 来 你 功课 做 得 挺 仔 细 啊 ,那么 回归 分 析 又 有 哪些 
类 别 呢 ? 

小 肖 : 这 方面 我 也 查 了 些 资 料 ,发 现 回归 分 析 是 个 大 家 族 ,有 多 种 类 
型 的 回归 分 析 ,最 常见 的 有 线性 回归 \logistic 回归 „сох 回归 ,等 等 。 

Miss Ж: 很 好 ,已 经 很 接近 我 们 要 用 的 分 析 方 法 了 ,再 问 一 个 问题 ， 
你 说 说 什么 是 线性 回归 ? 

小 肖 : 这 方面 不 是 搞 得 太 清楚 ,不 过 我 知道 线性 回归 根据 自 变 量 的 
个 数 的 不 同 ,分 为 一 元 线性 回归 和 多 元 线性 回归 。 这 里 的 “元 ” 指 的 就 是 
自 变量 的 个 数 。 比 如 ,我 们 在 进行 经 营 数 据 和 员工 人 数 之 间 的 回归 时 ,如 
果 选 择 “ 公 司 年 度 经 营 收入 ”作为 自 变量 来 进行 回归 分 析 , 那 么 就 叫 作 一 
元 线性 回归 ,因为 只 有 一 个 因 变量 和 一 个 自 变 量 。 如 果 我 们 同时 把 “公司 
年 度 经 营 收入 ”“ 净 利润” 作为 自 变 量 来 进行 回归 分 析 , 那 么 就 叫 作 多 元 线 
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性 回归 。 不 过 我 对 “线性 ”了 解 得 不 多 ,不 知道 为 哈 叫 线性 。 

Miss 陈 : 好 ,我 接着 你 的 内 容 往 下 说 。“ 线 ” 指 的 是 坐标 系 中 的 直线 ， 
“线性 ”就 是 说 自 变 量 和 因 变 量 之 间 大 致 呈 直 线 函 数 关 系 。 注 意 , 不 是 指 
标准 的 直线 ,而 是 大 体 呈 现 直 线 关 系 。 举 个 例子 吧 , 比 如 我 们 通信 分 公司 
营销 人 员 的 收入 ,其 中 的 绩效 工资 主要 是 靠 销 售 提成 获得 ,假如 每 卖 出 
1 部 手机 ,提成 100 元 ,那么 卖 得 越 多 收入 就 越 高 ,是 不 是 ? 

小 肖 : 是 的 ,但 是 这 和 线性 回归 有 什么 关系 呢 ? 

Miss Ж: 我 们 可 以 画 一 个 坐标 图 ,z 轴 代 表 销 售 手机 的 数量 ,y 轴 代 
表 收 入 提成 ,把 通信 分 公司 营销 人 员 的 实际 情况 画 到 坐标 图 中 ,每 一 个 点 
代表 一 个 销售 人 员 销 售 手 机 的 数量 ,如 图 3-1 所 示 。 
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手机 销售 数量 (部 ) 
3-1 通信 分 公司 销售 人 员 销 售 收入 与 提成 关系 图 (1) 


小 肖 : 嗯 ,看 到 了 ,这 些 点 看 起 来 好 像 一 条 直线 ,这 就 是 线性 关系 吗 ? 
Miss Ж: 是 的 ,如 果 把 这 些 点 用 一 条 直线 连 起 来 ,那么 这 条 直线 就 


73 


74 =Ë ARD A 1 AREE 


叫 作 回归 线 ,其 中 手机 销售 数量 就 是 自 变量 ,提成 就 是 因 变量 ,它们 的 回 
归 方 程 是 : 
提成 = 手机 销售 量 X100 
如 图 3-2 所 示 。 


提成 = 手机 销售 数量 x100 


2000 - 
20 40 60 80 x 

手机 销售 数量 (部 ) 

图 3-2 ”通信 分 公司 销售 人 员 销 售 收入 与 提成 关系 图 (2) 


小 肖 : 您 刚才 说 的 回归 方程 是 什么 意思 呢 ? 

Miss 陈 : 回归 方程 就 是 这 条 直线 的 函数 表现 形式 ,如 果 是 一 元 回归 
方程 ,那么 方程 式 如 下 所 示 。 

y=az+b 

其 中 ,> 是 因 变量 ,z 是 自 变量 ,a 是 直线 的 斜率 ,2 是 直线 的 截 距 。 
刚才 关于 营销 人 员 收 入 提成 的 例子 中 ,y 就 是 提成 ,x 就 是 手机 销售 数 
量 ,a 就 是 100,6 为 0。 

小 肖 : 哎呀 ,这 些 知识 在 中 学 学 过 呢 , 您 一 说 就 想起 来 了 。 不 过 ,我 
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们 的 实际 工作 很 少 碰 到 用 这 些 数学 知识 的 情况 。 对 了 ,多 元 回归 方程 的 
方程 式 又 如 何 表 述 呢 ? 

Miss 陈 : 多 元 回归 方程 的 方程 式 如 下 所 示 。 

у= ах Бах ах, Бе 

其 中 ,aa 一 au 叫 多 元 回归 方程 的 参数 ,e 是 误差 项 。 

小 肖 : 看 上 去 多 元 回归 的 方程 式 有 些 复杂 呢 。 

Miss 陈 : 自 变量 多 了 ,回归 方程 自然 会 复杂 些 , 而 且 方程 求解 的 方 
法 和 过 程 也 较 复杂 ,不 过 现在 有 很 多 统计 软件 都 可 以 快速 求解 回归 方程 
的 参数 值 , 倒 不 用 担心 计算 的 复杂 性 问题 。 

回 到 刚才 关于 手机 销量 的 例子 。 这 个 例子 很 特殊 ,因为 手机 销量 和 
提成 本 来 就 是 很 明显 的 直线 关系 ,提成 就 是 根据 销量 计算 出 来 的 ,它们 之 
间 是 等 比例 关系 ,所 以 图 中 的 回归 线 是 一 条 标准 的 直线 。 但 是 在 实际 环 
境 中 , 自 变量 和 因 变 量 很 少 会 有 这 种 标准 的 函数 关系 ,大 多 数 时 候 自 变量 
和 因 变 量 并 没有 直接 的 线性 关系 ,更 多 是 一 种 相关 关系 。 

比如 ,员工 的 绩效 一 般 会 受到 学 历 水 平 、 工 作 年 限 等 因素 的 影响 , 根 
据 我 们 的 经 验 , 会 认为 学 历 越 高 工作 经 验 越 丰富 的 员工 其 工作 绩效 往往 
也 较 高 ,但 学 历 ,工作 经 验 和 工作 绩效 之 间 不 是 因果 关系 ,所 以 咱们 不 能 
说 学 历 高 ,经验 丰富 的 员工 的 工作 绩效 就 一 定 会 高 ,不 是 这 种 关系 ,只 是 
近似 的 推理 ,实际 上 会 有 偏差 。 只 是 从 总 体 范围 来 看 ,学 历 高 .经 验 丰 富 
的 员工 ,绩效 高 的 可 能 性 会 更 大 ,所 以 绩效 高 的 人 也 会 更 多 ,我 们 将 这 种 
关系 称 为 相关 关系 。 

小 肖 : 那 这 种 情况 能 进行 回归 分 析 吗 ? 

Miss 陈 : 当然 可 以 ,只 要 自 变 量 和 因 变 量 之 间 存 在 相关 关系 ,就 可 
以 尝试 进行 回归 分 析 , 建 立 回归 方程 。 

小 肖 : 那 怎 么 知道 自 变 量 和 因 变 量 之 间 是 否 有 相关 关系 ,相关 关系 
程度 如 何 呢 ? 
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Miss Ж: 判断 相关 关系 可 以 计算 相关 系数 。 举 个 例子 ,比如 我 们 某 
个 分 公司 开展 员工 绩效 考核 ,会 得 到 三 类 分 数 ,分 别 是 绩效 总 分 、 适 应 总 
分 和 情绪 总 分 。 原 始 数据 见 表 3-1, 


#31 某 分 公司 员工 绩效 考核 结果 


ID | 员工 编号 | 性 别 | 部 门 | 绩效 总 分 (分 ) | 适应 总 分 (分 ) | 情绪 总 分 (分 ) 
1 1 1 1 12.00 11.00 12.00 
2 2 1 3 13.00 10.00 12.00 
3 3 1 1 20. 00 10. 00 14.00 
4 4 2 2 8.00 12.00 8. 00 
5 5 2 3 11.00 12.00 12.00 
6 6 2 1 11.00 11.00 10.00 
7 7 2 3 14.00 8.00 11.00 
8 8 2 1 11.00 10.00 13.00 


在 表 3-1 的 数据 中 ,性 别 、 部 门 这 两 个 变量 本 来 是 文本 类 型 ,我 们 进 
行 了 编号 ,使 其 数量 化 ,转换 为 无 序 分 类 数据 。 比 如 性 别 ,用 1 代表 男性 ， 
2 代表 女性 。 

下 面 我 们 计算 一 下 三 类 绩效 分 数 之 间 的 相关 系数 ,并 分 析 这 三 类 分 
数 之 间 是 否 存 在 相关 关系 ,以 及 相关 程度 如 何 。 结 果 见 表 3-2, 


#32 绩效 考核 结果 相关 系数 表 


绩效 总 分 (分 ) 适应 总 分 (分 ) 情绪 总 分 (分 ) 
绩效 总 分 1.00 0.47 0.54 
适应 总 分 0. 47 1. 00 0.41 
情绪 总 分 0. 54 0. 41 1.00 
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计算 相关 系数 的 RR 语句 如 下 : 


# 计 算 相 关系 数 

d<-read.csv(" 短 期 绩效 .csv") 

cor(d[,c(5,6,7)]) 

可 以 看 到 ,绩效 总 分 和 适应 总 分 的 相关 系数 是 0. 47 ,绩效 总 分 和 情 
绪 总 分 的 相关 系数 是 0. 54 ,适应 总 分 和 情绪 总 分 的 相关 系数 是 0. 41 ,三 
类 绩效 分 数 两 两 之 间 呈 现 中 等 程度 的 正 相 关 。 

该 结果 用 相关 矩阵 图 表示 如 图 3-3 所 示 。 


中 = 人 $ 
sË m m m= 
H R DCD R е Ж 
R Kw Ë # R W E 
1 
ID 1 0.14 0.8 
0.6 
25 1 0.14 
员工 编号 04 
性 别 ола | -019 | -01 02 
部 门 022 | 02 04 0 
-0.2 
绩效 总 分 -0.14 | 022 0.47 0.54 
-0.4 
适应 总 分 | 044 | 014 | 219 02 047 041 -0.6 
情绪 总 分 0 1 | 054 | 041 k. 


33 ”绩效 考核 结果 的 相关 矩阵 图 


短期 绩效 的 R 语句 如 下 : 


library(corrplot) 
d< -read.csv(" 短 期 绩效 .csv") 
corrplot (cor (d),method="number",diag=FALSE) 


图 3-3 中 每 一 个 格子 中 的 数字 表示 两 个 变量 之 间 的 相关 程度 , 正 数 
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表示 正 相 关 , 负 数 表 示 负 相关 ,数字 的 大 小 和 颜色 的 深浅 表示 相关 程度 ， 
从 图 中 也 可 以 看 出 三 个 绩效 分 数 之 间 呈 现 中 等 程度 的 正 相关 关系 。 

小 肖 : 画图 的 方式 好 像 方便 很 多 啊 , 变 量 之 间 的 相关 关系 被 直观 地 
表示 出 来 了 。 

Miss 陈 : 是 的 ,一 般 都 会 先 绘制 变量 之 间 的 关系 图 ,再 初步 决定 用 
什么 方法 来 分 析 。 对 了 ,说 明 一 下 ,通常 在 进行 数据 分 析 之 前 ,会 对 数据 
进行 初步 的 探索 ,为 选择 合适 的 统计 方法 提供 依据 。 这 种 对 数据 特征 的 
探索 以 绘图 居多 ,比如 在 分 析 开 始 前 常常 先 画 散 点 图 、 相 关 和 矩阵 图 、 箱 型 
图 、 直 方 图 等 ,来 研究 数据 的 分 布 情况 ,判断 数据 之 间 的 关系 ,等 等 。 前 面 
的 手机 销量 和 提成 的 图 就 是 散 点 图 。 

我 们 来 看 一 下 绩效 总 分 与 其 他 两 个 绩效 分 数 的 散 点 图 吧 , 如 图 3-4 
和 图 3-5 所 示 。 


30- 


20- 


绩效 总 分 (分 ) 


0 5 10 15 20 
适应 总 分 (分 ) 
图 3-4 绩效 总 分 与 适应 总 分 的 散 点 图 
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5 
© 
m 
= 
WK 
情绪 总 分 (分 ) 
图 3-5 ”绩效 总 分 与 情绪 总 分 的 散 点 图 
绘制 散 点 图 的 R 语句 如 下 : 


d<-read.csv ("短期 绩效 .csv") 

g<-ggplot (d) 

g+geom_point (aes (适应 总 分 ,绩效 总 分 , size=10, colour="red"))+ 
theme (legend.position="none")+ 
labs (title= "绩效 总 分 与 适应 总 分 的 散 点 图 ")+ 
stat_smooth (aes (适应 总 分 ,绩效 总 分 ) ,method="1m") 

g+geom point (aes (情绪 总 分 ,绩效 总 分 , size=10, colour="red"))+ 
theme (legend.position="none")+ 
labs (title= "绩效 总 分 与 情绪 总 分 的 散 点 图 ")+ 
stat_smooth (aes (情绪 总 分 ,绩效 总 分 ) ,method="1m") 


小 肖 : 图 中 的 直线 就 是 回归 线 吗 ? 

Miss Ж: 是 的 ,回归 线 周围 的 阴影 表示 因 变 量 的 置信 区 间 。 

小 肖 : 什么 是 置信 区 间 啊 ? 

Miss 陈 : 简单 来 说 ,置信 区 间 是 指 因 变量 的 浮动 范围 ,在 这 个 范围 
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内 因 变 量 出 现 的 概率 为 95% (或 者 更 高 )。 回 归 分 析 涉 及 的 知识 和 概念 
比较 多 ,我 们 作为 企业 的 职能 管理 人 员 ,不 用 钻研 得 太 过 深入 ,毕竟 不 是 
搞 科 研 的 ,掌握 基本 的 概念 和 方法 ,能 够 在 实际 管理 中 应 用 并 给 我 们 提供 
参考 决策 的 依据 就 可 以 了 。 如 果 有 兴趣 ,你 可 以 看 一 些 统计 学 方面 的 专 
业 书 籍 来 补 补 这 方面 的 知识 。 

小 肖 : 好 的 。 经 理 ,您 刚才 提 到 了 绩效 总 分 之 间 呈 正 相 关 关 系 , 那 什 
么 是 正 相 关 关系 呢 , 是 不 是 还 有 负 相 关 关系 呢 ? 

Miss 陈 : 正 相 关 关 系 是 指 两 个 变量 之 间 相 关 , 且 变化 趋势 相同 。 例 
如 ,身高 和 体重 ,一 般 身高 越 高 ,体重 就 越 重 ,而 身高 越 矮 ,体重 就 越 轻 , 身 
高 和 体重 的 变化 趋势 相同 ,就 叫 作 正 相关 关系 。 

小 肖 : 这 么 说 来 , 负 相 关 关 系 应 该 是 指 两 个 变量 之 间 相 关 , 但 是 变化 
趋势 相反 。 例 如 , 随 着 气温 升 高 ,秋冬 季节 的 衣服 销量 就 会 下 降 , 但 气温 
下 降 , 秋 冬季 节 的 衣服 销量 就 会 上 升 ,是 这 样 吧 ? 

Miss Ж: 是 的 ,你 说 得 很 正确 。 还 有 一 种 特殊 的 相关 关系 , 叫 零 相 
关 , 就 是 说 两 个 变量 之 间 没有 任何 关系 ,一 个 变量 的 变化 并 不 影响 另 一 个 
变量 的 变化 。 

小 肖 : 嗯 ,明白 了 。 


322 回归 分 析 的 作用 


Miss Ж: 小 肖 ,你 知道 回归 分 析 有 什么 作用 吗 ? 

小 肖 : 根据 我 查 到 的 资料 ,回归 分 析 的 作用 大 致 有 两 种 : 一 是 寻找 事 
情 发 生 的 原因 ,比如 刚才 的 例子 ,销售 的 手机 越 多 ,员工 的 提成 就 越 高 , 根 
据 分 析 发 现 手 机 销量 和 员工 提成 之 间 存在 线性 关系 ,那么 手机 销量 就 是 
影响 员工 收入 的 原因 。 二 是 预测 ,这 需要 用 到 回归 方程 ,可 以 改变 自 变量 
的 值 来 计算 因 变 量 的 估计 值 ,实现 预测 的 目的 ,比如 可 以 根据 手机 销量 来 
预测 员工 的 提成 。 
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Miss 陈 : 很 好 ,如 果 你 发 现 了 一 种 现象 ,又 想 探索 这 种 现象 背后 的 
原因 ,就 可 以 考虑 采用 回归 分 析 。 如 果 这 种 现象 可 以 用 连续 型 数值 来 描 
述 ,可 以 考虑 采用 线性 回归 。 

小 肖 : 什么 是 连续 型 数值 呢 ? 

Miss 陈 : 连续 型 数值 是 对 数据 的 一 种 分 类 , 像 身高 .体重 、 年 龄 等 数 
据 就 是 连续 型 数据 ,这 类 数据 任意 两 点 之 间 可 以 有 任意 个 数据 。 比 如 身 
高 ,我 的 身高 是 170cm ,你 的 身高 是 162cm, 我 们 两 个 的 身高 之 间 ,存在 无 
数 个 值 ,都 可 以 表示 身高 ,这 种 数据 就 是 连续 型 数值 。 与 之 相应 的 是 离散 
型 数值 , 像 岗位 层级 、 员 工 类 别 等 ,这 类 数据 的 任意 两 点 之 间 只 有 有 限 个 
数据 。 比 如 ,我 们 的 员工 岗位 层级 有 20 个 级 别 ,8 岗 和 10 岗 的 员工 之 
间 , 只 存在 9 岗 ,不 能 在 中 间 无 限 划分 岗位 层级 。 这 类 数据 就 是 离散 型 
数值 。 

小 肖 : 那么 是 不 是 回归 分 析 的 数据 一 定 要 是 连续 型 数值 呢 ? 

Miss 陈 : 原则 上 是 的 。 

小 肖 : 糟糕 ,我们 分 析 人 员 需 求 时 ,员工 人 数 是 离散 型 数值 啊 , 那 不 
是 不 能 进行 回归 分 析 了 吗 ? 

Miss 陈 : 别 担心 ,员工 人 数 可 以 看 作 近 似 连 续 型 数值 ,进行 回归 
分 析 。 

小 肖 : 原来 是 这 样 。 

Miss 陈 : 其 实 ,线性 回归 分 析 的 使 用 条 件 是 比较 严格 的 ,这 些 条 件 
包括 : @ 自 变量 和 因 变 量 之 间 要 有 线性 关系 ; @ 变 量 要 是 连续 型 数值 ; 
@ 线 性 回归 方程 的 残 差 要 服从 正 态 分 布 、 独 立 性 和 方差 齐 性 。 其 中 涉及 
一 些 统计 学 的 概念 ,我 们 后 面 讲 到 的 时 候 再 讨论 。 

小 肖 : 好 的 。 
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图 数据 准备 


3.3.1 分 析 影 响 人 员 数 量 的 指标 并 收集 数据 


Miss 陈 : 接 下 来 要 开始 进行 回归 分 析 , 你 准备 了 什么 数据 ? 

小 肖 : 我 来 不 及 找 全 所 有 公司 的 数据 ,所 以 先 准 备 了 两 个 分 公司 的 
数据 ,就 是 A、B 两 个 分 公司 。 由 于 我 们 的 分 公司 业务 类 型 差异 太 大 ,如 
果 合 并 在 一 起 进行 人 员 总 数 的 预测 ,会 有 比较 大 的 误差 ,所 以 我 打算 分 别 
进行 各 个 分 公司 的 人 员 需 求 预 测 , 然 后 再 汇总 起 来 。 

Miss 陈 : 很 好 。 

小 肖 : 我 先 对 数据 做 了 一 些 观察 和 分 析 ,尝试 计算 了 相关 系数 ,然后 
根据 相关 系数 的 大 小 ,挑选 了 与 人 员 数 量 相关 程度 较 大 的 变量 来 做 分 析 。 
以 A 分 公司 和 B 分 公司 为 例 ,情况 如 下 。 

人 A 分 公司 的 数据 包含 两 个 变量 ,分 别 是 年 销售 额 和 员工 总 数 。 因 为 
除了 年 销售 额 这 个 变量 之 外 ,其 他 的 变量 和 员工 人 数 的 相关 系数 都 不 大 ， 
所 以 就 不 作为 分 析 的 变量 了 。 原 始 数 据 见 表 3-3。 


表 3-3 A 分 公司 年 销售 额 和 员工 总 数 历年 数据 


年 份 年 销售 额 ( 万 元 ) 员工 总 数 ( 人 ) 
2005 40 868 1 820 
2006 51 357 2 150 
2007 56 108 1 816 
2008 86 331 2 456 
2009 193 607 3 222 
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续 表 
年 份 年 销售 额 (万 元 ) 员工 总 数 ( 人 ) 
2010 221 368 3 833 
2011 278 679 4 235 
2012 295 976 4 403 
2013 321 555 4 832 
2014 374 970 5 439 


B 分 公司 的 数据 包含 三 个 变量 ,分 别 是 年 出 口 额 \ 年 固定 资产 投资 额 
和 员工 总 数 。 选 择 年 出 口 额 和 年 固定 资产 投资 额 这 两 个 变量 的 原因 是 它 
们 与 员工 总 数 的 相关 程度 很 高 。 原 始 数 据 见 表 3-4。 


表 3-4 B 分 公司 年 出 口 额 \ 年 固定 资产 投资 额 和 员工 总 数 历年 数据 


年 份 年 出 口 额 (万 元 ) 年 固定 资产 投资 额 (万 元 ) | 员工 总 数 ( 人 ) 
2005 2 304.2 10 206. 16 266 
2006 6 378. 87 837. 12 442 
2007 5 633. 96 4 577.9 382 
2008 5 317. 78 1 465. 38 436 
2009 8 581. 47 1 232. 33 584 
2010 11 725, 05 7 440. 174 691 
2011 13 215.2 4 055. 895 768 
2012 17 414. 86 6 295, 692 954 
2013 14 362. 77 12 312. 059 800 
2014 12 627. 38 12 689. 914 720 


3.3.2 ”对 数据 进行 相关 分 析 


Miss 陈 : 那么 我 们 现在 对 数据 进行 初步 分 析 ,探索 一 下 数据 之 间 的 


关系 。 
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先 看 A 分 公司 ,首先 绘制 散 点 图 ,用 图 形 来 分 析 数 据 之 间 的 相关 程 
度 , 如 图 3-6 所 示 。 
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3-6 ”A 分 公司 年 销售 额 与 员工 总 数 的 散 点 图 


从 散 点 图 可 以 看 出 ,A 分 公司 的 员工 总 数 和 年 销售 额 之 间 存在 明显 
的 正 相 关 关 系 , 即 年 销售 额 越 大 ,员工 总 数 就 越 多 。 进 一 步 根 据 其 数据 计 
算 员 工 总 数 和 年 销售 额 之 间 的 相关 系数 ,结果 是 0. 99, 说 明 两 个 变量 之 
间 呈 现 高 度 相 关 关 系 。 

计算 相关 系数 和 绘制 散 点 图 的 人 语句 如 下 : 


d<-read.csv ("第 三 章 /A 分 公司 人 员 需 求 预测 .csv") # 读 取 数 据 


cor (d[,2:3]) # 计 算 相 关系 数 
plot (d[,2:3]) # 散 点 图 


再 看 也 分 公司 ,绘制 散 点 图 ,观察 三 个 变量 之 间 的 关系 ,如 图 3-7 
所 示 。 

从 散 点 图 可 以 看 出 ,员工 总 数 和 年 固定 资产 投资 额 .年 出 口 额 都 存在 
明显 的 正 相关 关系 。 分 别 计算 其 相关 系数 , 均 表明 三 个 变量 之 间 存 在 高 
度 的 正 相关 关系 ,结果 见 表 3-5. 
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3-7 B 分 公司 年 出 口 额 \ 年 固定 资产 投资 额 和 员工 总 数 的 散 点 图 


表 3-5 B 分 公司 年 出 口 额 \ 年 固定 资产 投资 额 和 员工 总 数 的 相关 系数 


年 出 口 额 (万 元 ) 


年 固定 资产 投资 额 (万 元 ) 


员工 总 数 ( 人 ) 


年 出 口 额 


1. 00 


0. 96 


1. 00 


年 固定 资产 投资 额 


0.96 


1.00 


0.96 


员工 总 数 


1. 00 


0. 96 


计算 相关 系数 和 绘制 散 点 图 的 及 语句 如 下 : 


d<-read.csv ("第 三 章 /B 分 公司 人 员 需 求 预测 .csv") 


round (cor (d[,2:4]),digits=2) 


plot (d[,2:4] ,main="B 分 公司 员工 总 数 散 点 分 布 图 ") 


1. 00 


# 读 取 数 据 
# 计 算 相关 系数 
# 散 点 图 
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小 肖 : 嗯 ,是 的 ,和 我 筛选 数据 变量 时 计算 的 相关 系数 是 一 样 的 ,所 
以 这 两 个 分 公司 用 了 不 同 的 变量 。 如 果 相 关 程 度 不 高 ,那么 就 不 适合 用 
来 进行 回归 分 析 ,是 这 样 吗 ? 

Miss Ж: 我 们 要 进行 的 是 回归 分 析 , 通 常 指 的 是 线性 回归 ,这 种 线 
性 是 变量 之 间 存 在 近似 直线 关系 ,所 以 可 以 用 相关 系数 来 大 致 筛选 维度 。 
不 过 这 样 进行 筛选 仍然 比较 粗糙 ,有 些 维度 可 能 和 员工 人 数 存 在 某 种 非 
线性 关系 ,比如 指数 关系 、 对 数 关系 等 ,这 类 情况 就 很 难 用 相关 系数 来 判 
т. 

小 肖 : 哎呀 , 那 不 是 会 漏 掉 一 些 重要 的 维度 吗 ? 那么 有 什么 方法 可 
以 判断 维度 之 间 的 非 线 性 关系 呢 ? 

Miss Ж: 最 新 的 一 种 算法 叫 MINE 算法 ,可 以 探测 变量 之 间 的 线性 
和 非 线 性 关系 。 如 果 变 量 之 间 不 是 相关 关系 ,而 是 存在 某 种 曲线 关系 ,也 
能 分 析出 来 。 但 这 个 算法 不 是 我 们 讨论 的 重点 ,以 后 有 机 会 再 谈 吧 。 


[>+] 分 析 过 程 : 建立 线性 回归 模型 


小 肖 : 确认 了 变量 之 间 的 相关 关系 ,那么 接 下 来 该 怎么 分 析 呢 ? 

Miss 陈 : 接 下 来 我 们 进行 回归 分 析 。 

先 看 A 分 公司 ,以 “员工 总 数 ” 作 为 因 变量 ,“ 年 销售 额 ”* 作 为 自 变量 ， 
进行 回归 分 析 , 建 立 回归 模型 ,分 析 结 果 如 下 : 


Са11: 
lm(formula= 工 总 数 ~ 年 销售 额 ，data= d) 


Coefficients: 
(Intercept) 年 销售 额 
1.418e+03 1.042е-02 
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根据 分 析 结果 ,线性 回归 方程 的 截 距 (intercept) 为 1 418 ,年 销售 额 

的 系数 为 0.010 42 ,由 此 可 列 出 员工 总 数 与 年 销售 额 的 回归 方程 为 
员工 总 数 二 0.010 42X 年 销售 额 十 1 481 

人 A 分 公司 回归 分 析 的 R 语句 如 下 : 

a<- lm( 员 工 总 数 ~ 年 销售 额 ,a) 。“”# 回 归 分 析 

summary (a) # 显 示 回 归 分 析 结 果 

coef (a) # 显 示 回 归 方程 的 参数 估计 的 结果 (回归 方程 的 系数 ) 

小 肖 : 回归 分 析 这 么 快 就 分 析 完 了 ? 

Miss Ж: 呵呵 ,是 的 。 在 R 语言 中 ,线性 回归 用 lm 函数 ,只 需要 一 
条 语句 ,回归 分 析 建 模 就 完成 了 。 

那么 ,下 面 看 B 分 公司 ,以 “员工 总 数 ”为 因 变量 ,“ 年 出 口 额 * 和 “年 固 
定 资产 投资 额 ” 为 自 变 量 ,进行 回归 分 析 , 建 立 回归 模型 ,分析 结 果 如 下 : 


Са11: 
lm(formula= 员 工 总 数 ~ 年 固定 资产 投资 额 + 年 出 口 额 ，data=d) 


Coefficients: 


(Intercept) ”年 固定 资产 投资 额 年 出 口 额 
1.678e+02 2.382e-03 4.325e-02 
根据 分 析 结 果 ,线性 回归 方程 的 截 距 为 167. 8 ,年 固定 资产 投资 额 的 
系数 为 0.002 382 ,年 出 口 额 的 系数 为 0.043 25 ,由 此 可 列 出 回归 方程 为 
员工 总 数 一 0. 002 382X 年 固定 资产 投资 额 
+0. 043 25X 年 出 口 额 十 167. 8 


B 分 公司 回归 分 析 的 R 语句 如 下 : 

a<- lm (员工 总 数 ~ 年 固定 资产 投资 额 + 年 出 口 额 ,d) # 回 归 分 析 

summary (a) # 显 示 回 归 分 析 结 果 
coef (a) # 显 示 回 归 方程 的 参数 估计 的 结果 (回归 方程 的 系数 ) 


小 肖 : 看 来 进行 回归 分 析 不 难 嘛 ,很 快 就 把 模型 建 好 了 。 
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Miss Ж: 从 上 面 的 过 程 来 看 ,用 R 语言 进行 回归 分 析 建 模 的 过 程 的 
确 比 较 简单 ,但 是 要 得 到 一 个 准确 的 、 理 想 的 回归 方程 可 不 是 一 件 容易 的 
事情 ,还 有 很 多 工作 要 做 ,诸如 以 下 方面 。 

(1) 回归 模型 是 否 在 统计 学 上 达到 显著 水 平 ,也 就 是 说 模型 是 否 有 
效 、 能 用 。 

(2) 自 变量 的 系数 (参数 估计 ) 是 否 在 统计 学 上 达到 显著 性 水 平 ? 

(3) 是 否 存 影响 作用 不 大 的 自 变量 ? 

(4) 自 变量 之 间 是 否 存 在 交互 作用 ? 

(5) 是 否 存 在 异常 值 ? 

(6) 回归 方程 的 残 差 是 否 符合 正 态 分 布 HEAR? 


上 面 列 出 的 问题 都 是 影响 回归 模型 效果 的 一 些 因素 。 想 要 回归 模型 
做 得 严 说、 准确, 在 应 用 回归 模型 进行 预测 的 时 候 能 够 得 到 精准 的 ,符合 
实际 情况 的 结果 ,那么 就 需要 对 上 述 的 问题 一 一 进行 分 析 、 验 证 和 改进 ， 
不 断 进 行 模型 优化 和 模型 诊断 。 

小 肖 : 哇 , 原 来 还 要 做 这 么 多 的 事情 啊 , 看 来 进行 回归 分 析 还 挺 复杂 
的 ,不 像 刚 才 想 的 那么 简单 。 

Miss 陈 : 是 的 。 我 们 看 看 B 分 公司 回归 模型 的 具体 情况 。 


Call: 
lm(formula= 员 工 总 数 ~ 年 固定 资产 投资 额 + 年 出 口 额 ，data=d) 


Residuals: 
Min 1Q Median 3Q Max 
-35.644 =11.713 -2.794 8.099 32.554 


Coefficients: 

Estimate Std. Error t value Pr (> |ti) 
(Intercept) 1.678e+02 1.955e+01 8.584 5.8е-05 *** 
年 固定 资产 投资 额 2.382e-03 7.813e-03 0.305 0.769 305 
年 出 口 额 4.325е-02 5.991е-03 7.220 0.000 174 xxx 
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Signif. codes: 0 '*w*' 0.001 "ж%' 0.01 *** 0.05 °.' 0.1 ' ' 1 


Residual standard error: 23.53 on 7 degrees of freedom 
Multiple R- squared: 0.990 9,Adjusted R- squared: 0.9883 
F-statistic: 382.2 on 2 and 7 DF, p-value: 7.118e-08 


总 体 来 说 ,B 分 公司 的 回归 方程 是 显著 的 (注意 上 面 内 容 中 最 后 一 行 
的 p-value: 7. 118e —8<0. 01) ,说 明 方程 总 体 是 有 效 的 ,具有 统计 学 上 
的 意义 。 再 看 系数 ,其 中 Intercept、 年 出 口 额 的 系数 都 达到 了 很 高 的 显著 
性 水 平 ,但 是 年 固定 资产 投资 额 的 系数 并 不 显著 (等 于 0. 769 305 ,远大 于 
0. 01) ,说 明 这 个 自 变量 对 因 变 量 的 影响 不 大 ,回归 方程 需要 进行 优化 。 
上 面 分 析 结果 的 R 语句 如 下 : 


Summary (a) # 显 示 回 归 分 析 结 果 


小 肖 : 遇 到 这 种 情况 我 们 该 怎么 办 呢 ? 

Miss Ж: 我 们 需要 对 方程 进行 优化 ,筛选 重要 变量 ,去 掉 不 重要 变 
量 。 现 在 我 们 重新 对 B 分 公司 的 数据 进行 回归 分 析 , 这 次 在 原先 模型 的 
基础 上 采用 逐步 回归 方法 来 优化 模型 ,结果 如 下 : 


Call: 
lm(formula= 员 工 总 数 ~ 年 出 口 额 ，data=d) 


Residuals: 
Min 1Q Median 3Q Max 
=36.771 -11.298 -2.411 7.264 32.569 


Coefficients: 

Estimate Std. Error t value Рг(> |61) 
(Intercept) 1.652e+02 1.652e+01 10.00 8.47е-06 +++ 
年 出 口 额 4.501e-02 1.533е-03 29.36 1.96e-09 энне 


Signif. codes: 0 '*w*' 0.001 "+*+" 0.01 '** 0.05 '.'0.1'!'1 
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Residual standard error: 22.16 оп 8 degrees of freedom 
Multiple R- squared: 0.990 8,Adjusted R- squared: 0.9897 
F-statistic: 862.1 on 1 and 8 DF, p-value: 1.962e-09 


从 上 面 逐 步 回归 分 析 的 结果 可 以 看 出 ,年 固定 资产 投资 额 这 个 维度 
已 经 被 自动 第 掉 了 , 筛 掉 之 后 回归 方程 的 各 项 指标 都 达到 了 统计 学 上 的 
显著 性 要 求 ,这 时 的 回归 方程 比 之 前 的 方程 更 为 理想 ,回归 方程 也 因此 纠 
正 为 
员工 总 数 二 0.045 01X 年 出 口 额 十 165.2 
对 回归 模型 进行 优化 ,逐步 回归 分 析 的 R 语 句 如 下 : 
a<- step (а) # 使 用 逐步 回归 优化 回归 方程 
summary (а) # 显 示 回 归 分 析 结 果 
小 肖 : 哦 ,原来 年 固定 资产 投资 额 并 不 是 一 个 理想 的 变量 啊 , 看 来 通 
过 对 回归 模型 的 优化 ,可 以 筛选 掉 那些 对 因 变 量 影响 作用 不 大 的 自 变量 。 
Miss 陈 : 是 的 。 严 格 来 说 , 接 下 来 还 要 进行 回归 诊断 ,主要 是 对 残 差 
(预测 值 和 实际 值 之 间 的 差 值 ) 进 行 正 态 性 检验 、 分 析 异 常 值 对 回归 方程 
的 影响 、 自 变量 之 间 是 否 存 在 多 重 共 线 性 等 问题 。 不 过 ,我 们 毕 竞 不 是 搞 
科学 研究 的 ,对 回归 方程 做 到 上 述 优化 即 可 ,不 用 再 进行 残 差 等 分 析 , 即 
可 在 人 力 资源 管理 中 应 用 了 


B.: 结果 应 用 : 根据 回归 模型 预测 下 一 年 度 员工 需求 


小 肖 : 现在 回归 方程 已 经 有 了 ,是 不 是 就 可 以 进行 下 一 年 度 员工 
求 的 预测 了 呢 ? 
Miss Ж: 是 的 ,现在 只 需要 把 下 一 年 度 的 自 变量 数据 代入 回归 方程 
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就 可 以 进行 预测 了 。 
小 肖 : 嗯 ,我 跟 市 场 部 的 同事 拿 到 了 这 两 个 分 公司 明年 的 预算 数据 ， 
其 中 A 分 公司 明年 的 销售 额 预算 为 40 亿 元 ,B 分 公司 的 年 出 口 额 预算 为 
1.8 亿 元 。 根 据 前 面 的 回归 方程 ,将 数据 代 和 人 方程 后 ,计算 可 得 两 个 分 公 
司 明年 的 员工 人 数 为 
A 分 公司 : 5 588 人 
B 分 公司 : 975 人 
太 棒 了 ,竟然 这 样 预测 出 了 明年 需要 的 员工 人 数 。 
Miss Ж: 不 过 还 没 结束 ,预测 的 人 数 实际 上 是 有 一 定 的 浮动 范围 ， 
你 应 该 把 浮动 的 范围 也 计算 出 来 ,作为 预测 的 结果 。 
小 肖 : 怎么 计算 预测 人 数 的 浮动 范围 呢 ? 
Miss Ж: 可 以 用 及 语言 中 的 predict 函数 进行 计算 ,结果 见 表 3-6。 


表 3-6 A.B 分 公司 下 一 年 度 员 工 需求 人 数 预测 值 


预测 值 最 小 值 最 大 值 
A 分 公司 5 588 5 173 6 004 
B 分 公司 975 914 1 036 


根据 分 析 结 果 可 以 知道 ,A 分 公司 明年 的 员工 人 数 预计 需要 5 588 
人 ,最 低 需 要 5 173 人 ,最 多 需要 6 004 人 ,实际 人 数落 在 这 个 范围 的 概率 
为 95%。B 分 公司 明年 的 员工 人 数 预 计 需 要 975 人 ,最 低 需 要 914 人 ,最 
高 需要 1 036 人 ,实际 人 数落 在 这 个 范围 的 概率 为 95%。 

A、B 分 公司 下 一 年 度 员工 需求 预测 的 R 语句 如 下 : 

ЖА 分 公司 人 员 预 测 

次 年 销售 额 预算 <- даса. frame (年 销售 额 =400 000) ”# 设 置 次 年 销售 额 预算 值 

predict (a, 次 年 销售 额 预算 , interval="prediction", level=0.95) 


# 预 测 (置信 区 间 为 95%) 
#B 分 公司 人 员 预 测 
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次 年 经 营 预 测 数据 <-data.frame (年 出 口 额 =18 000) 
# 设 置 次 年 年 出 口 额 预算 值 
predict (ay 次 年 经 营 预测 数据 ,interval="prediction",1level=0.95) 
# 预 测 (置信 区 间 为 95%) 


小 肖 : 明白 了 。 以 此 类 推 ,我 就 可 以 把 每 个 分 公司 下 一 年 的 人 员 需 
求 预测 出 来 了 ,汇总 之 后 就 是 公司 总 体 的 人 员 需 求 了 。 


= 
= 
第 4 章 


培训 师 评估 


导语 : 企业 组 织 内 部 培训 ,在 选择 培训 讲师 时 往往 带 有 
主观 成 分 ,导致 出 现 授 课 效 果 不 佳 的 现象 ,影响 培训 效果 。 
本 章 介 绍 如 何 建立 企业 内 部 培训 讲师 授课 评分 数据 库 , 在 此 
基础 上 通过 计算 标准 分 建立 常 模 ,绘制 正 态 分 布 图 ,用 定量 
化 的 方法 选择 培训 讲师 。 


п ARB UNA A ЖЕЙ = 


图 ara 


小 曾 : 经 理 , 这 周 的 中 层 管理 人 员 培 训 出 了 点 问题 。 

Miss 陈 : 什么 问题 ? 

小 曾 : 您 知道 中 层 管理 人 员 的 培训 不 好 搞 啊 ,他 们 参加 的 培训 不 少 ， 
对 培训 师 的 要 求 很 高 。 这 次 的 培训 就 有 不 少 人 向 我 们 反映 ,说 培训 师 的 
授课 水 平一 般 , 让 我 们 下 次 找 好 点 的 培训 师 , 别 浪费 他 们 的 时 间 。 

Miss Ж. 你 了 解 具体 情况 吗 ? 

小 曾 : 我 跟 一 些 参加 培训 的 学 员 做 了 沟通 ,结合 培训 结束 后 填写 的 培 
训 评 估 表 中 反馈 的 意见 ,总 结 了 一 下 大 家 反映 的 主要 问题 ,有 如 下 三 点 。 


(1) 培训 师 对 公司 不 了 解 , 讲 的 都 是 其 他 行业 的 内 容 , 可 移植 性 不 强 。 

(2) 培训 师 讲 课 的 风格 偏 学 院 风 ,理论 为 主 ,能 落地 实施 的 内 容 不 多 。 

(3) 培训 师 过 于 强势 ,对 学 员 要 求 比较 严格 ,把 学 员 当 作 在 校 学 生 
对 待 。 


Miss Ж: 这 次 培训 在 策划 阶段 时 对 培训 师 做 过 评估 吗 ? 

小 曾 : 做 过 一 些 评 估 。 这 次 的 培训 师 是 同行 推荐 的 ,我 们 分 析 了 他 
的 资料 ,他 的 知名 度 很 高 ,授课 经 历 也 比较 丰富 ,给 一 些 知名 企业 讲 过 课 ， 
提前 发 来 的 课程 提纲 也 比较 符合 我 们 这 次 的 培训 需求 。 综 合 来 看 ,感觉 
他 比较 适合 这 次 公司 组 织 的 培训 ,所 以 才 请 他 来 授课 。 并 且 根据 我 在 培 
训 期 间 的 观察 ,这 位 培训 师 本 身 的 知识 水 平 是 很 高 的 ,经 验 也 比较 丰富 ， 
但 没 想 到 会 出 问题 。 

Miss 陈 : 企业 培训 讲究 实效 ,培训 师 要 在 一 两 天 内 讲授 有 效 的 知识 
和 技能 ,还 要 控制 好 学 员 的 注意 力 ,控制 授课 的 节奏 ,这 对 培训 师 的 授课 
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技能 水 平 要 求 很 高 ,也 给 我 们 选择 培训 师 带 来 了 难度 。 准 确 评估 培训 师 
的 技能 水 平 确实 有 难度 ,特别 是 外 部 的 培训 师 , 有 些 人 还 在 外 地 ,很 难 进 
行 直 接 的 、 面 对 面 的 接触 ,而 且 我 们 也 较 少 安排 试 讲 环节 ,在 这 种 情况 下 
想 请 到 完全 符合 我 们 实际 需求 的 培训 师 确实 比较 困难 。 

小 曾 : 是 啊 , 有 些 培训 师 虽 然 知名 度 高 ,是 大 教授 或 者 名 企 高 管 ,但 
讲课 不 一 定 精 彩 ,甚至 可 能 很 枯燥 ,不 受 学 员 喜 欢 ; 有 些 培训 师 口才 好 ,但 
讲课 内 容 漂 浮 ,很 难 落地 , 听 这 类 培训 师 的 课 就 像 是 听 演讲 ,精彩 有 余 , 实 
用 不 足 。 如 何 选 好 培训 师 一 直 是 困扰 我 的 问题 。 

Miss 陈 : 那么 你 有 什么 想法 呢 ? 

小 曾 : 我 也 没有 什么 好 的 想法 ,不 过 如 果 我 们 有 一 个 培训 师 评 分 体 
系 , 能 够 对 其 授课 水 平 进行 量化 的 评估 就 好 了 。 就 像 大 众 点 评 网 对 餐厅 
的 评分 ,每 个 餐厅 的 口味 、 环 境 、 服 务 都 有 一 个 评分 ,看 到 评分 就 能 知道 餐 
厅 的 基本 情况 ,这 对 我 们 选择 去 什么 餐厅 就 餐 有 很 大 帮助 。 类 似 的 还 有 
淘宝 卖家 的 评分 , 豆 辩 电影 的 评分 等 ,都 能 很 好 地 帮助 我 们 做 出 合理 的 、 
准确 的 选择 。 

Miss 陈 : 你 这 个 想法 很 好 ,实际 上 也 是 可 以 做 到 的 。 我 们 可 以 建立 
培训 师 评分 体系 ,可 以 给 他 们 打 打 分 ,对 培训 师 进行 量化 评估 ,用 标准 化 
分 数 来 帮助 我 们 选择 合适 的 培训 师 。 

小 曾 : 要 怎么 建立 培训 师 的 评分 体系 呢 ? 


[+2] 案例 分 析 


42.1 数据 准备 


Miss 陈 : 为 了 建立 我 们 企业 的 培训 师 评 分 系统 ,请 先 准 备 一 些 数 
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据 吧 。 

小 曾 : 需要 什么 数据 呢 ? 

Miss Ж: 每 次 培训 结束 后 ,不 是 都 要 让 学 员 填 写 培 训 评估 表 吗 ? 

小 曾 : 您 是 指 培训 评估 表 的 评分 吧 ,用 这 个 评分 来 建立 培训 师 的 评 
分 体系 吗 ? 

Miss 陈 : 是 的 。 

小 曾 : 哎呀 , 早 该 想到 用 这 个 ,我 们 可 是 积累 了 好 几 年 的 数据 呢 。 在 
我 们 的 评估 表 中 ,其 中 一 项 重要 的 内 容 就 是 对 培训 师 授 课 情况 的 评估 E 
要 包括 授课 内 容 、 讲 授 方法 .进度 控制 .授课 氛围 掌控 等 维度 。 表 4-1 就 
是 我 们 用 的 培训 评估 表 。 

表 4-1 培训 评估 表 


培训 班 名 称 培训 时 间 


学 员 您 好 : 

劳 驾 耽误 您 几 分 钟 帮 助 完 成 此 份 调查 问卷 ,您 的 评价 对 于 改进 培训 工作 来 说 
非常 重要 。 请 在 空白 处 填 上 合适 的 分 数 ,分 数 为 1 一 10 分 ,其 中 10 分 为 最 高 分 ， 
1 分 为 最 低 分 ,并 在 相应 的 位 置 上 填写 意见 。 谢 谢 您 的 配合 。 


课程 评估 

课程 准备 充分 ,内 容 系统 、 丰 富 , 针 对 性 强 
你 在 本 次 培训 获得 的 知识 、 技 能 和 理念 能 否 运 用 到 实际 工作 中 
课程 的 内 容 对 提升 您 的 个 人 能 力 有 帮助 
课程 的 内 容 对 提升 您 的 业务 能 力 有 帮助 
课程 中 安排 的 案例 与 练习 及 培训 的 形式 有 助 于 加 深 对 课程 的 理解 和 掌握 

培训 师 评估 
项 目 (培训 师 ) 
课程 结构 清晰 、 人 逻辑 性 强 , 知 识 量 适中 、 重 点 突出 
能 结合 企业 实际 授课 ,案例 丰富 ,内 容 深 入 浅 出 
授课 内 容 能 反映 最 新 的 技术 业务 知识 
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T E KAS WH HR 流畅 


# 


能 积极 调动 学 员 学 习 的 积极 性 ,教学 互动 性 强 , 教 学 进度 控制 良好 


授课 内 容 能 提高 学 员 的 工作 绩效 


授课 内 容 具 有 启迪 性 


学 员 对 培训 师 的 满意 度 


授课 方式 灵活 、 丰 富 , 能 运用 各 种 教学 道具 ,课堂 气氛 活路 


授课 准备 充分 ,态度 认真 


培训 服务 评估 


培训 班 后 勤 支撑 情况 


培训 班主 任 对 参 训 学 员 考 勤 管理 情况 


培训 班主 任 能 和 否 及 时 处 理学 员 反映 的 问题 


培训 班主 任 工作 态度 ,是 否认 真 、 积 极 和 严谨 


培训 班主 任课 前 教务 工作 安排 ,是 否 满足 教学 要 求 


培训 环境 评估 


培训 课室 教学 设备 (计算 机 、 音 响 等 ) 课 前 准备 情况 ,是 否 满足 教学 要 求 


培训 课室 教学 环境 搭建 完善 ,是 否 符合 课程 内 容 学 习 要 求 


后 勤 服务 评估 


餐厅 服务 人 员 的 服务 态度 〈 如 无 就 餐 无 须 评分 ) 


餐厅 饭菜 是 否 做 到 卫生 保温 、 足 量 (如 无 就 餐 无 须 评分 ) 


就 餐 方 式 是 否 便捷 ` 有 序 ( 如 无 就 餐 无 须 评分 ) 


客房 清洁 卫生 (如 无 住宿 无 须 评分 ) 


客房 前 台 服 务 人 员 的 服务 水 平 〈 如 无 住宿 无 须 评分 ) 


培训 服务 的 意见 及 期 望 


您 对 培训 服务 的 意见 和 建议 : 


Miss Ж: 我 们 的 培训 评估 是 在 培训 结束 之 后 ,由 学 员 登 录 公 司 的 培 
训 管理 系统 在 线 填 写 的 ,所 以 收集 数据 比较 方便 ,直接 从 数据 库 中 导出 来 
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即 可 ,可 以 节省 数据 收集 和 整理 的 时 间 。 

小 曾 : 是 的 。 在 培训 管理 系统 中 ,通常 会 用 “培训 师 评 估 ” 的 平均 分 
来 代表 该 培训 师 的 总 体 授课 效果 ,那么 我 们 是 否 可 以 用 这 个 分 数 来 评价 
培训 师 的 授课 水 平 呢 ? 

Miss 陈 : 虽然 可 以 ,但 直接 用 这 个 分 数 来 评价 培训 师 的 授课 水 平 还 
不 够 理想 。 这 个 分 数 是 原始 分 数 ,原始 分 数 能 够 给 我 们 提供 的 信息 是 有 
限 的 。 比 如 ,一 位 培训 师 的 得 分 是 9 分 , 赁 感觉 我 们 会 觉得 这 个 得 分 还 不 
错 ,算是 较 高 的 分 数 。 但 实际 情况 可 能 是 90% 的 培训 师 的 得 分 都 大 于 这 
个 分 数 ,这 时 候 你 再 想 想 ,9 分 算 高 分 还 是 低 分 呢 ? 

小 曾 : 如 果 90% 的 培训 师 的 得 分 都 大 于 9 分 , 那 9 分 就 不 算 高 分 了 。 
如 果 看 原始 分 数 不 容 易 判 断 优 劣 , 那 要 怎么 办 呢 ? 

Miss 陈 : 我 们 可 以 将 原始 分 数 转 换 为 标准 分 。 

小 曾 : 什么 是 标准 分 呢 ? 

Miss Ж: 这 个 问题 我 们 暂时 先 放 一 放 , 你 先 收 集 一 下 最 近 几 年 的 培 
训 师 评分 数据 ,我 们 再 看 看 应 该 如 何 计算 标准 分 。 

小 曾 : 好 的 。 这 些 数据 都 在 我 们 公司 的 培训 管理 系统 中 ,马上 就 可 
以 导出 来 。 这 几 年 公司 开展 了 大 量 培训 ,共有 1 943 名 培训 师 进 行 了 授 
课 , 这 些 培 训 师 包括 内 部 培训 师 和 外 部 培训 师 ,我 们 对 每 次 授课 都 进行 了 
评估 。 如 果 同 一 名 培训 师 讲授 了 多 次 课程 ,我 们 会 取 平均 分 。 部 分 数据 
见 表 4-2, 


表 4-2 培训 师 综 合 评分 数据 


序号 姓 名 综合 评分 (分 ) 
1 ж 9. 72 
2 яхи 8. 36 
3 曾 彦 博 9. 29 
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续 表 
序号 姓 名 综合 评分 (分 ) 
4 王 大 勇 9. 31 
5 赵 爱 玲 8. 94 
6 彭 海航 9. 44 
1 943 肖 剑 萍 9.27 
422 分 析 案 例 


Miss 陈 : 从 数据 来 看 ,我 们 公司 的 培训 工作 做 得 很 到 位 啊 , 这 几 年 
竟 请 了 这 么 多 培训 师 授 课 。 不 过 这 里 的 数据 只 是 原始 数据 ,不 能 满足 分 
析 的 要 求 ,需要 进行 转换 。 现 在 我 添加 一 列 数据 ,这 列 数据 是 根据 原始 数 
据 计 算出 的 标准 分 ,你 来 看 看 。 添 加 数据 见 表 4-3. 


RA 培训 师 综合 评分 标准 分 


序号 姓 名 综合 评分 (分 ) 综合 评分 标准 分 (分 ) 
1 ЛЖ 9.72 114. 76 
2 HHE 8. 36 78.19 
з 曾 彦 博 9. 29 103. 20 
4 王 大 勇 9. 31 103. 74 
5 赵 爱 玲 8.94 93.79 
6 圳 海航 9. 44 107. 23 
1 943 ЕБ ЕЗ 9.27 102. 66 


小 曾 : ОНА р 100 分 上 下 的 分 数 了 ,这 就 是 标准 分 吗 ? 转换 
为 标准 分 后 有 什么 用 处 呢 ? 
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Miss Ж: 是 的 , 表 4-3 中 最 后 一 列 的 数据 就 是 标准 分 。 标 准 分 能 够 
反映 某 个 培训 师 在 培训 师 群 体 中 的 相对 位 置 , 以 此 来 判断 培训 师 的 授课 
水 平 。 转 换 为 标准 分 后 ,只 需要 知道 某 个 培训 师 的 原始 分 数 ,就 能 够 判断 
该 培训 师 授课 水 平 的 高 低 了 。 

现在 随便 在 表 中 找 一 位 培训 师 来 试 试看 。 就 以 姓名 为 “李刚 ”的 培训 
师 为 例 吧 ,经 查询 他 的 原始 分 为 9. 48 分 ,标准 分 为 108 分 ,从 标准 分 可 以 
看 出 他 的 授课 水 平 超过 了 50% 的 培训 师 ,经 过 计算 可 以 准确 知道 他 的 授 
课 评分 超过 了 79.7% 的 培训 师 ,评估 等 级 是 “良好 ”。 通过 上 述 分 析 可 以 
知道 该 培训 师 的 授课 水 平 处 于 中 上 游 ,其 综合 评分 标准 化 示意 图 如 图 4-1 
所 示 。 


0.04 - 


003. 培训 师 “ 李 刚 ” 的 综合 过 79.7% 的 培训 师 , 良好 


0.01 = 


0.00 二 | | | | 
60 80 100 120 140 
综合 得 分 (分 ) 
图 4-1 培训 师 综 合 评分 标准 化 示意 图 


小 曾 : 这 个 示意 图 看 上 去 很 直观 啊 ,培训 师 的 授课 水 平一 目 了 然 。 

Miss 陈 : 把 原始 分 转换 为 标准 分 ,用 标准 分 来 评估 培训 师 的 授课 水 
平 ,并 区 分 等 级 的 分 析 方法 ,可 以 比较 准确 地 评估 培训 师 在 培训 师 群 体 中 
的 授课 水 平 。 并 且 , 由 于 分 数 都 是 我 们 公司 的 员工 评 出 的 ,反映 了 我 们 公 
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司 员工 对 培训 师 的 价值 倾向 ,所 以 特别 符合 公司 的 实际 情况 ,能 够 最 大 限 
度 地 帮助 我 们 选择 符合 公司 实际 需求 ,满足 员工 价值 倾向 的 培训 师 。 

不 过 需要 注意 的 是 ,这 些 都 是 我 们 公司 的 员工 评定 的 分 数 ,反映 的 是 
我 们 公司 的 情况 ,不 能 推广 到 公司 以 外 的 地 方 。 

小 曾 : 哦 ,明白 了 。 如 果 今 后 要 聘请 的 培训 师 不 在 我 们 的 数据 库 中 ， 
还 能 用 这 个 分 析 方法 吗 ? 

Miss 陈 : 如 果 要 聘请 的 培训 师 不 在 我 们 的 数据 库 中 ,我 们 可 以 想 办 
法 将 其 纳入 我 们 的 评分 体系 。 比 如 ,我 们 可 以 找 几 个 员工 去 现场 听 该 培 
训 师 的 课程 ,如 果 该 培训 师 在 网 上 有 培训 视频 ,还 可 以 直接 观看 网 上 视 
频 。 然 后 请 这 些 员工 用 相同 的 培训 评估 表 对 该 培训 师 进 行 评分 ,再 将 评 
分 代 和 上述 的 评分 体系 ,计算 标准 分 ,不 就 把 该 培训 师 纳 入 我 们 的 评分 体 
系 中 了 吗 ? 

小 曾 : 原来 如 此 , 太 棒 了 。 通 过 这 种 方式 我 们 就 可 以 准确 评估 培训 
师 的 综合 水 平 ,避免 选择 评分 在 培训 师 群 体 中 位 置 靠 后 的 培训 师 ,也 不 用 
担心 聘请 的 培训 师 不 符合 学 员 的 需求 了 。 不 过 ,这 种 分 析 的 过 程 和 原理 
是 什么 呢 ? 

Miss 陈 : 嗯 ,下 面 我 们 来 看 看 如 何 进 行 这 种 分 析 。 


{@ 分 析 过 程 


4.3.1 计算 平均 数 和 标准 差 


Miss Ж: 你 刚才 看 到 了 ,我 们 实际 上 是 用 标准 分 来 进行 分 析 的 。 要 
计算 标准 分 ,就 先 要 计算 出 平均 数 和 标准 差 , 下 面 就 来 计算 培训 师 综 合 评 
分 的 平均 数 和 标准 差 吧 。 
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小 曾 : 经 理 , 计 算 平 均 数 设 问题 ,可 标准 差 是 什么 呢 ? 

Miss Ж: 关于 标准 差 ,后 面 会 详细 讲 讲 。 现 在 先 简单 说 一 下 ,标准 差 
是 每 个 数据 偏离 平均 数 的 距离 的 平均 数 , 是 概率 统计 中 的 一 个 重要 概念 。 
和 平均 数 相 比 , 平 均 数 反映 了 数据 的 集中 程度 ,标准 差 反 映 了 数据 的 分 散 
程度 ,它们 正好 是 一 对 。 标 准 差 的 计算 公式 如 下 : 


1 < 
с = 126 — D) 


其 中 ,zx; 表示 每 个 数据 ,w 表示 平均 数 。 应 该 说 标准 差 是 一 个 很 常见 
的 统计 量 ,在 各 种 表格 ,数据库 .数据 分 析 软 件 中 都 能 见 到 ,可 以 轻松 快速 
地 计算 出 来 。 

小 曾 : 我 试 试 计算 一 下 。 好 了 ,下面 是 计算 结果 : 

培训 师 综合 评分 平均 数 : w 一 9.17 

培训 师 综 合 评分 标准 差 : a= 0.37 


计算 平均 数 和 标准 差 的 R 语句 如 下 : 
mean (d$ 综 合 评 分 ) # 计 算 平均 数 
sd (d$ 综 合 评分 ) # 计 算 标准 差 


Miss К: 做 得 不 错 ! 顺便 提示 一 下 ,Excel 中 计算 平均 数 的 函数 是 
average, 计 算 标 准 差 的 函数 是 stdev。 计 算出 平均 数 和 标准 差 ,我 们 就 可 
以 计算 标准 分 了 。 


432 计算 标准 Z 分 数 和 工分 数 


小 曾 : 什么 是 标准 分 呢 ? 

Miss 陈 : 标准 分 也 叫 Z 分 数 , 是 通过 原始 分 计算 出 来 的 相对 位 置 
数 ,反映 了 数据 在 总 体 中 的 相对 位 置 。 

小 曾 : 那 标准 分 怎么 计算 呢 ? 

Miss Ж: 标准 分 的 计算 比较 简单 ,刚才 咱们 不 是 已 经 计算 出 了 平均 
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数 和 标准 差 吗 ? 标准 分 就 是 用 这 两 个 数 计算 出 来 的 ,公式 如 下 : 


(=— py) 
с 


其 中 ,zx 表示 标准 分 ,zx 表示 原始 分 ,w 表示 平均 数 ,o 表示 标准 差 。 
Ж 4-4 是 根据 原始 分 计算 的 标准 分 。 


表 4-4 培训 师 综合 评分 标准 分 乙 分 数 


= = 


序号 姓 名 综合 评分 (分 ) 综合 评分 标准 分 Z 分 数 


1 Ж 9.72 1. 48 
2 HHE 8. 36 —2 19 
3 GEA 9. 29 0. 33 
4 王 大 勇 9.31 0. 37 
5 赵 爱 玲 8. 94 一 0. 62 
6 圳 海航 9. 44 0.72 
1943 Е ЕЯ 9.27 0.27 


小 曾 : 号 ,这 次 计算 出 来 的 标准 分 和 您 刚才 计算 的 不 一 样 , 这 里 的 分 
数 都 在 0 上 下 浮动 ,而 刚才 的 标准 分 在 100 上 下 浮动 。 

Miss 陈 : 很 好 ,观察 得 很 仔细 ! 这 里 计算 的 是 标准 分 2 分 数 。 本 来 
Z 分 数 也 可 以 应 用 ,不 过 由 于 Z 分 数 的 量 纲 太 小 ,而 且 还 有 负数 ,和 我 们 
习惯 的 百分制 差别 较 大 ,所 以 通常 又 会 再 次 进行 转换 ,转换 为 标准 分 工 
分 数 。 转 换 的 方法 也 比较 简单 ,公式 如 下 : 

T= 10X Z+100 

转换 后 的 了 分 数 变 为 了 服从 标准 差 为 10 ,平均 数 为 100 的 正 态 分 布 

数据 ,经 过 转换 后 的 工分 数 见 表 4-5. 
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表 4-5 培训 师 综合 评分 标准 分 工分 数 


序号 | 姓 名 | 综合 评分 | 综合 评分 标准 分 QZ 分 数 | 综合 评分 标准 分 工分 数 
1 ЊК 9.72 1. 48 114.76 
2 MHE 8. 36 —2.19 78.19 
3 КЕД 9.29 0.33 103. 20 
4 王 大 勇 9. 31 0. 37 103. 74 
5 赵 爱 玲 8. 94 一 0.62 93.79 
6 囊 海 航 9. 44 0.72 107. 23 
1943| ЧЕ 9.27 0.27 102. 66 


小 曾 : 原来 如 此 ,2 分 数 转换 成 了 工分 数 ! 果然 ,转换 之 后 看 上 去 就 
有 熟悉 感 了 ,感觉 像 是 我 们 的 考试 分 数 ,呵呵 。 


43.3 绘制 正 态 分 布 图 


Miss Ж: 转换 为 标准 分 后 ,我 们 就 可 以 根据 标准 分 计算 出 某 个 培训 
师 在 培训 师 群 体 中 的 位 置 了 。 

小 曾 : 看 上 去 ,我们 好 像 是 用 比例 来 代表 相对 位 置 的 吧 ? 

Miss 陈 : 是 的 ,我 们 用 某 个 培训 师 的 标准 分 对 应 的 累计 概率 分 布 值 
来 标示 其 在 培训 师 群 体 中 所 处 的 位 置 。 为 了 正确 显示 培训 师 在 培训 师 群 
体 中 的 位 置 ,需要 先 绘制 一 张 正 态 分 布 图 ,如 图 4-2 所 示 。 

此 图 绘制 过 程 有 以 下 两 个 步骤 。 

(1) 随机 生成 若干 服从 正 态 分 布 的 数据 ,这 些 数据 服从 以 100 为 平 
均 数 ,10 为 标准 差 的 正 态 分 布 (与 培训 师 综合 评分 标准 分 了 分 数 的 平均 
数 和 标准 差 一 致 ) 。 

(2) 根据 以 上 数据 绘制 密度 曲线 图 。 
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图 4-2 正 态 分 布 图 


绘制 正 态 分 布 图 的 R 语句 如 下 : 


r<-data.frame (a=rnorm(10 000,mean=100, sd=10)) # 随 机 生成 10 000 
个 平均 数 为 100, 标 准 差 为 10 的 数据 

g<-ggplot (r) 

gt+geom density (aes (x=a),fill="blue",alpha=0.3,adjust=2) 


434 标注 位 置 


小 曾 : 接 下 来 要 在 图 上 标记 培训 师 的 位 置 吗 ? 

Miss К: 是 的 ,标注 培训 师 的 位 置 也 有 两 个 步 又。 

(1) 计算 培训 师 的 标准 工分 数 、 概 率 密 度 值 .累计 分 布 值 \ 对 应 等 级 
等 数据 。 

(2) 根据 以 上 数据 在 图 中 标注 培训 师 的 位 置 。 


比如 这 位 叫 李刚 的 培训 师 , 经 过 计算 和 查询 ,其 基本 情况 是 标准 分 为 
108. 31 分 ,概率 密度 值 为 0. 028 ,累计 概率 分 布 值 为 79.7% ,评价 等 级 为 
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“良好 ”。 
小 曾 : 评定 等 级 是 怎么 划分 的 呢 ? 
Miss 陈 : 评定 等 级 是 按照 标准 差 的 大 小 来 划分 的 ,具体 见 表 4-6. 


表 4-6 评定 等 级 划分 标准 


等 级 判断 标准 了 工分 数 
非常 优秀 22 个 标准 差 T>120 
优秀 1 一 2 个 标准 差 120>T2110 
良好 0 一 1 个 标准 差 110>T>100 
一 般 一 1 一 0 个 标准 差 100>T=90 
较 差 一 2 一 一 1 个 标准 差 90>T2>80 
很 差 去 一 2 个 标准 差 80>T 


等 级 划分 是 人 为 划 定 的 ,可 以 根据 实际 情况 进行 调整 。 

小 曾 : 原来 如 此 。 

Miss к: 现在 万 事 俱 备 只 欠 东 风 了 ,我们 把 该 培训 师 的 统计 数据 标 
示 到 图 上 去 吧 , 如 图 4-3 所 示 。 


概率 密度 


综合 得 分 (分 ) 
图 4-3 培训 师 综合 评分 标准 化 示意 图 
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从 图 4-3 可 以 直观 看 出 ,培训 师 “ 李 刚 ” 的 授课 综合 评分 超过 了 
79.7% 的 培训 师 , 处 于 中 间 偏 右 的 位 置 , 评 价 等 级 为 “良好 ”。 
以 上 分 析 过 程 的 人 语句 如 下 : 


library (ggplot2) 

d<-read.csv(" 第 四 章 / 培 训 师 评分 原始 数据 .csv") HEDE 

mean (d$ 综 合 评分 ) # 计 算 平 均 数 

sd (d$ 综 合 评分 ) # 计 算 标准 差 

ds 综合 评分 标准 分 <- scale (d$ 综 合 评 分 ) # 计 算 标 准 分 

d$ 综 合 评分 标准 分 <-round (d$ 综 合 评分 标准 分 * 10+100,2) # 转 换 为 了 分 数 
п<- "李刚" 

x<-d[q$ 姓 名 ==n, ] $ 综 合 评分 标准 分 # 提 取 某 培训 师 的 综合 评分 标准 分 


y<-dnorm(x,mean=100,sd=10) # 概 率 密度 值 
yl<-pnorm(x,mean=100,sd=10) # 累 计 分 布 概率 
у2<-"" 


{ 
if (x< 80) {y2=" 很 差 "} 
else if (х<90) {y2=" 较 差 "} 
else if (x<100) {y2= "一般 "} 
else if (x<110) {y2=" 良 好 "} 
else if (x<120) {y2= "优秀 "} 
else {у2= "非常 优秀 "} 
} 
1<-разёе ("培训 师 г", n,"] 的 综合 评分 为 ", round (x, 0), "分, 超过", round 
(у1* 100,2),"$ 的 人 ,",y2) # 生 成 标注 
r<-data.frame (a=rnorm(10 000,mean=100,sd=10)) # 随 机 生成 正 态 分 布 值 
g<-ggplot (r) 
g+geom_density(aes(x=a),fill="blue",alpha=0.3,adjust=2)+ 
# 绘 制 密度 曲线 
geom point (aes (x,y),size=5,color="red")+ # 绘 制 位 置 点 
geom text (aes (x,y,vjust=- 1),label=1,color="red")+ # 绘 制 标注 
labs (title=" 谦 多 顺 公 司 培训 师 综合 评估 体系 ",x=" 综 合 得 分 ", y="") 


小 曾 : 如 果 要 查询 和 计算 其 他 培训 师 的 数据 ,是 不 是 把 上 述 R 语句 
中 变量 n 的 值 更 改 成 其 他 培训 师 的 名 字 就 可 以 了 ? 
Miss 陈 : 是 的 。 
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441 平均 数 和 标准 差 


小 曾 : 经 理 ,关于 标准 差 您 能 说 得 再 详细 一 点 吗 ? 

Miss Ж: 好 的 。 标 准 差 是 一 个 很 有 意思 的 数据 ,和 平均 数 有 关系 。 
要 理解 标准 差 ,我 们 需要 更 进一步 理解 平均 数 。 平 均 数 是 众所周知 的 统 
计量 ,那么 我 问 你 ,平均 数 有 什么 缺点 ? 

小 曾 : 经 常用 平均 数 , 倒 没 怎么 想 过 它 的 缺点 。 不 过 ,我 们 在 算 平 均 
工资 的 时 候 , 经 常 出 现 平均 工资 高 过 大 部 分 员工 的 情况 ,员工 都 抱怨 说 被 
平均 了 ,这 算 不 算 缺 点 呢 ? 

Miss 陈 : 你 说 得 很 好 ! 平均 数 的 缺点 就 是 容易 受 极端 值 影响 。 如 果 
数据 中 有 一 些 非常 大 或 者 非常 小 的 值 ,平均 数 就 会 向 这 些 数值 靠拢 ,导致 
我 们 对 数据 的 总 体 情况 出 现 误 判 。 

比如 ,我 们 常常 看 到 官方 公布 某 城市 职工 的 平均 工资 ,每 次 公布 后 网 
上 都 有 很 多 人 党 得 平均 工资 太 高 ,说 自己 拖 了 国家 的 后 腿 。 某 种 程度 上 
看 ,很 可 能 是 平均 工资 受到 了 极端 值 的 影响 , 即 受 到 那些 少数 的 高 收入 人 
群 的 影响 ,平均 数 被 拉 高 了 。 

小 曾 : 明白 了 ,由 于 部 分 人 工资 很 高 ,把 平均 工资 给 抬 高 了 。 

Miss Ж: 所 以 在 某 些 情况 下 我 们 会 用 中 位 数 来 代替 平均 数 ,因为 中 
位 数 更 能 反映 实际 情况 。 

小 曾 : 什么 是 中 位 数 呢 ? 

Miss 陈 : 中 位 数 就 是 把 数据 从 小 到 大 进行 排序 ,处 在 中 间 位 置 的 那 
个 数 。 不 过 中 位 数 和 我 们 这 次 的 内 容 相关 度 不 大 , 咱 还 是 继续 说 平均 数 
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吧 。 你 知道 平均 数 反映 了 数据 的 什么 特征 吗 ? 
小 曾 : 您 刚才 说 了 ,平均 数 反映 了 数据 的 集中 趋势 。 
Miss 陈 : 是 的 ,平均 数 反映 了 数据 的 集中 趋势 ,也 就 是 说 反映 了 数 
据 密集 .集中 的 特性 ,反映 了 数据 向 中 间 值 靠拢 的 趋势 特征 。 
小 曾 : 平均 数 是 有 这 个 特点 。 
Miss Ж: 与 集中 趋势 相反 ,数据 还 有 一 种 特征 叫 离散 趋势 ,也 就 是 
数据 的 分 散 程度 。 如 果 我 们 要 了 解数 据 的 分 散 程度 ,就 需要 用 到 标准 差 。 
小 曾 : 平常 很 少 听 到 离散 趋势 这 个 说 法 ,能 具体 讲 讲 吗 ? 
Miss 陈 : 举 个 例子 吧 , 有 A 和 B 两 组 数据 ,如 下 : 
A:12589 
B:34567 
你 计算 一 下 这 两 组 数据 的 平均 数 。 
小 曾 : 好 的 。 啊 ! 计算 出 来 A、B 两 组 数据 的 平均 数 都 是 5. 
Miss Ж: 平均 数 都 是 5 ,那么 用 平均 数 就 不 能 比较 这 两 组 数据 之 间 
的 差异 了 ,得 想 其 他 办 法 。 现 在 我 们 把 这 两 组 数据 投射 到 坐标 轴 上 看 看 ， 
如 下 所 示 。 


> 
> 
ш> 
> 
> 


小 曾 : 看 到 了 ,A 组 数据 更 分 散 ,B 组 数据 更 集中 。 

Miss 陈 : 是 的 ,虽然 这 两 组 数据 的 平均 数 相 同 , 但 是 它们 的 分 散 程 
度 却 不 同 ,这 种 分 散 程度 就 叫 作 离散 趋势 ,而 衡量 这 种 离散 趋势 的 指标 就 
是 标准 差 。 还 记得 标准 差 的 计算 公式 吗 ? 


式 中 ,6 为 标准 差 ;n 为 数据 个 数 ;z; 为 第 i 个 数据 ;y 为 平均 数 。 
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小 曾 : 嗯 ,这 公式 看 上 去 其 实 还 有 点 儿 复杂 。 

Miss Ж: 其 实 理解 起 来 并 不 复杂 ,标准 差 计 算 公式 的 意思 是 : 每 个 
数 与 平均 数 的 差 的 平方 和 ,再 除 以 数据 个 数 后 开 方 。 简 单 来 说 就 是 计算 
每 个 数 与 平均 数 的 差异 之 和 。 当 然 , 如 果 手 动 计算 会 比较 麻烦 ,好 在 有 很 
多 软件 都 可 以 方便 地 计算 出 标准 差 ,比如 Excel, 用 函数 Stdeva 就 可 以 轻 
松 地 计算 出 标准 差 。 

小 曾 : 我 来 计算 一 下 A.B 两 组 数据 的 标准 差 。 

A 组 数据 标准 差 : ол =3. 54 

B 组 数据 标准 差 : ce 一 1.58 

数据 更 分 散 的 A 组 ,其 标准 差 更 大 ,B 组 的 标准 差 更 小 。 这 么 看 来 ， 
如 果 标 准 差 越 大 ,那么 数据 的 离散 程度 就 越 大 ,是 这 样 吗 ? 

Miss 陈 : 是 的 。 


442 正 态 分 布 


小 曾 : 经 理 , 您 能 讲 讲 正 态 分 布 吗 ? 

Miss 陈 : 好 的 。 正 态 分 布 (normal distribution) 又 名 高 斯 分 布 
(Gaussian distribution) ,据说 是 高 斯 先生 最 先 应 用 的 。 对 了 ,就 是 那个 著 
名 的 数学 家 高 斯 。 现 在 德国 的 10 马克 钱币 上 还 印 着 他 的 头像 和 正 态 分 
布 的 密度 曲线 呢 , 以 纪念 这 位 伟大 学 者 。 

正 态 分 布 是 连续 随机 变量 概率 分 布 的 一 种 频率 分 布 形式 。 举 个 例子 
吧 , 人 的 身高 是 不 同 的 ,有 的 人 个 子 高 ,有 的 人 个 子 矮 ,高 矮 胖 瘦 各 不 相 
同 ,是 吧 ? 但 是 ,特别 高 和 特别 矮 的 人 并 不 多 ,大 多 数 人 都 是 中 等 身高 。 
如 果 把 全 世界 的 人 的 身高 放 到 一 起 ,按照 身高 出 现 的 频率 绘制 坐标 图 ,用 
横 坐 标 表示 身高 , 纵 坐 标 表 示人 数 ,那么 一 定 会 得 到 如 图 4-4 所 示 的 频数 
图 (直方 图 ) 。 

大 部 分 人 的 身高 会 集中 在 中 等 高 度 的 附近 , 越 往 极端 方向 延伸 (很 高 
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图 4-4 人体 身高 分 布 频数 图 


或 很 矮 的 方向 ), 人 数 就 越 少 ,这 种 分 布 就 是 正 态 分 布 。 如 果 把 直方 图 转 
换 为 密度 曲线 图 ,用 概率 来 代替 人 数 ,就 变 成 如 图 4-5 所 示 的 正 态 分 布 
图 了 。 
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正 态 分 布 的 特点 有 以 下 几 方 面 。 


(1) 正 态 分 布 是 左右 对 称 的 ,对 称 轴 是 经 过 平均 数 点 的 垂直 线 。 

(2) 正 态 分 布 的 中 央 点 最 高 ,然后 逐渐 向 两 侧 下 降 ,曲线 的 形式 是 先 
DAR, AASE., 

(3) 正 态 曲线 下 的 面积 为 1。 正 态 分 布 是 一 签 分 布 , 受 到 平均 数 、 标 
准 差 的 大 小 与 单位 不 同 而 有 不 同 的 分 布 形态 。 标 准 正 态 分 布 是 正 态 分 布 
的 一 种 ,其 平均 数 和 标准 差 都 是 固定 的 ,平均 数 为 0, 标 准 差 为 1 。 

(4) 正 态 分 布 曲线 下 标准 差 与 概率 面积 有 固定 数量 关系 。 所 有 的 正 
态 分 布 都 可 以 通过 Z 分 数 公式 转换 成 标准 正 态 分 布 。 


在 自然 界 和 人 类 社会 中 存在 大 量 的 正 态 分 布 形态 ,比如 鹅卵石 的 长 
度 、 高 考 的 成 绩 、 人 的 身高 和 体重 、 每 年 的 降雨 量 、 植 物 叶片 的 直径 大 小 
等 ,基本 上 都 服从 正 态 分 布 规律 。 

小 曾 : 听 了 这 些 , 我 对 正 态 分 布 的 认识 清晰 了 很 多 呢 。 但 比较 疑惑 
的 是 ,为 什么 自然 界 和 人 类 社会 中 会 出 现 正 态 分 布 的 现象 呢 ? 

Miss K: 问 得 很 好 。 自 然 界 和 人 类 社会 为 什么 会 出 现 正 态 分 布 的 
现象 呢 ? 据 我 所 知 ,虽然 很 多 人 在 使 用 正 态 分 布 , 但 是 并 不 知道 为 什么 会 
出 现 正 态 分 布 ,为 什么 要 用 正 态 分 布 。 要 解释 这 个 问题 ,我 们 需要 了 解 统 
计 学 的 历史 。 说 来 话 长 ,你 知道 以 下 几 点 即 可 。 


(1) 高 斯 发 现 了 随机 误差 的 分 布 服从 正 态 分 布 规律 。1801 年 ,高 斯 
将 正 态 分 布 应 用 到 天 文学 研究 ,用 最 小 二 乘法 神奇 地 预测 了 谷 神 星 的 位 
置 ,并 证 明了 随机 误差 的 分 布 服从 正 态 分 布 规律 ,这 是 正 态 分 布 在 世界 上 
的 第 一 次 应 用 。 

(2) 自然 界 和 生产 中 大 量 存在 正 态 分 布 现 象 。1809 年 ,法 国 著名 的 
天 文学 家 和 数学 家 拉 普 拉 斯 发 现 高 斯 的 研究 后 ,马上 将 正 态 分 布 与 他 的 
中 心 极限 定理 结合 起 来 ,证 明 在 自然 界 与 社会 生产 中 ,一 些 现象 受到 许多 
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相互 独立 的 随机 因素 的 影响 ,如 果 每 个 因素 所 产生 的 影响 都 很 微小 时 ,总 
的 影响 可 以 看 作 是 服从 正 态 分 布 的 。 之 后 中 心 极限 定理 得 到 进一步 发 
展 , 该 定理 发 现 无 论 总 体 数据 呈现 什么 分 布 , 只 要 取出 的 样本 量 足够 大 ， 
都 有 正 态 分 布 的 形式 。 中 心 极 限定 理 和 正 态 分 布 的 结合 为 正 态 分 布 的 应 
用 商定 了 基础 。 

(3) 正 态 分 布 在 各 个 学 科 都 得 到 证 实 并 应 用 。1831 年 ,比利时 统计 
学 家 、 数 学 家 和 天 文学 家 ,被 誉 为 近代 统计 学 之 父 的 凯特 勒 将 正 态 分 布 的 
概念 引入 人 口 学 ,从 此 正 态 分 布 遍地 开花 ,攻陷 人 口 政治. 农业、 工业 、 商 
业 、 犯 罪 等 社会 领域 ,并 进一步 攻占 天 文学 数学 、 物 理学 .生物 学 、 社 会 统 
计 学 及 气象 学 等 自然 科学 领域 。 

从 正 态 分 布 被 发 现 . 论 证 、 应 用 的 历史 过 程 可 以 看 出 , 正 态 分 布 是 由 
统计 学 家 、 数 学 家 、 天 文学 家 发 现 的 一 种 自然 现象 ,就 像 牛顿 发 现 万 有 引 
力 一 样 , 正 态 分 布 也 是 一 种 自然 现象 。 

小 曾 : 原来 正 态 分 布 是 这 样 被 发 现 和 应 用 的 , 正 态 分 布 是 一 种 自然 
现象 , 挺 有 趣 的 。 回 头 我 得 找 找 更 详细 的 资料 ,深入 学 习 正 态 分 布 的 
知识 。 


443 标准 分 


小 曾 : 那么 为 什么 可 以 根据 标准 分 计算 相对 位 置 呢 ? 

Miss 陈 : 因为 标准 分 服从 正 态 分 布 。 根 据 前 面 所 说 的 正 态 分 布 的 
特点 ,只 要 知道 了 标准 分 的 值 ,就 可 以 计算 其 相对 位 置 ,计算 出 累计 分 布 
概率 值 。 标 准 正 态 曲 线 的 面积 分 布 如 图 4-6 所 示 。 

还 记得 标准 正 态 分 布 的 特点 吗 ? 

小 曾 : 记得 ,标准 正 态 分 布 的 平均 数 是 0, 标准 差 是 1, 把 数据 转换 为 
标准 z 分 数 后 就 服从 标准 正 态 分 布 。 
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34:13%- -34.13% 


标准 差 
4-6 标准 正 态 曲线 的 面积 分 布 


Miss Ж: 是 的 。 对 于 标准 正 态 分 布 , 可 以 根据 标准 分 的 值 计算 对 应 
的 概率 分 布 值 。 正 负 一 个 标准 差 内 的 面积 为 34. 13% 2= 68. 26% , 正 
负 两 个 标准 差 内 的 面积 为 34.13%X2 十 13. 59%X2 二 95. 44%。 

以 刚才 的 培训 师 评分 为 例 ,根据 培训 师 评 分 可 计算 对 应 的 分 布 面积 。 
我 们 想 了 解 培训 师 优 于 多 少 人 ,所 以 计算 的 是 正 态 分 布 曲线 中 的 左 侧面 
积 , 即 累计 分 布 概率 值 。 取 培训 师 分 数 为 90 分 、100 分 、110 分 ,其 对 应 的 
左 侧面 积 如 图 4-7 所 示 。 

(本 章 源 代码 提供 了 网 页 版 的 正 态 分 布 演 示 和 计算 程序 ,该 程序 可 以 
设置 平均 数 和 标准 差 ,然后 计算 左 、 右 侧面 积 、 中 间 面 积 和 双 侧 面积 ,还 可 
以 设置 面积 来 倒 推 标准 差 , 供 读者 练习 和 应 用 .) 

小 曾 : 累计 分 布 概率 值 要 如 何 计算 呢 ? 

Miss 陈 : 计算 机 普及 前 ,要 计算 累计 分 布 概率 值 ,需要 把 数据 转换 
为 标准 正 态 分 布 ,然后 查询 正 态 分 布 表 来 获得 分 布 概率 值 。 随 着 计算 机 
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的 普及 和 技术 的 发 展 ,以 及 各 类 分 析 软 件 的 升级 ,大 部 分 计算 都 可 以 通过 
计算 机 来 完成 ,而 不 用 像 以 前 那样 手动 计算 和 查找 。 

计算 机 的 发 展 让 统计 计算 的 速度 得 到 了 前 所 未 有 的 提升 ,而 且 由 于 
不 用 担心 计算 的 复杂 程度 ,近代 还 发 展 出 一 些 更 高 级 的 统计 算法 。 这 类 
算法 用 人 工 计 算是 很 困难 的 ,比如 现代 流行 的 机 器 学 习 算法 ,如 果 不 依靠 
计算 机 ,将 会 非常 的 费时 费力 。 虽 然 对 这 些 算法 的 学 习 和 理解 有 一 定 难 
度 , 但 是 依靠 计算 机 ,在 实际 应 用 的 时 候 用 一 两 个 函数 就 可 以 完成 计算 ， 
简单 得 多 。 

现在 已 经 不 需要 查 正 态 分 布 表 ,也 不 需要 转换 为 标准 正 态 分 布 ,只 需 
要 知道 平均 数 和 标准 差 ,代入 函数 就 可 以 计算 出 结果 。 比 如 Excel H RK 
数 NORM. DIST 就 可 以 直接 计算 累计 概率 值 ,在 R 语言 中 用 pnorm K 
数 来 计算 。 

小 曾 : 还 好 计算 起 来 比较 简单 ,这 下 放心 了 。 不 过 ,我 对 工分 数 还 不 
是 太 清楚 ,2 分 数 转换 为 工分 数 有 什么 特殊 意义 吗 ? 

Miss K: 看 看 工分 数 的 转换 公式 吧 。 

T = 10 X Z+ 100 
小 曾 : 看 上 去 工分 数 是 用 2 分 数 乘 10 再 加 100, 这 有 什么 含义 吗 ? 
Miss 陈 : 我 们 把 上 面 的 公式 换个 形式 如 下 : 
T=aXZ+b 

实际 上 ,转换 后 的 工分 数 也 服从 正 态 分 布 , 其 标准 差 等 于 a, 平 均 数 
等 于 b。 

所 以 ,我 们 的 培训 师 评分 数据 转换 为 工分 数 后 ,服从 标准 差 为 10, 平 
均 数 为 100 的 正 态 分 布 。 

小 曾 : 原来 是 这 样 啊 ,a 和 b 就 是 转换 为 工分 数 后 的 标准 差 和 平 
均 数 。 

Miss Ж: 是 的 。 其 实 工分 数 的 应 用 领域 是 挺 广泛 的 。 比 如 高 考 的 
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标准 分 ,就 是 以 500 为 平均 数 ,100 为 标准 差 的 工分 数 ; 还 有 我 们 的 智商 
测试 ,一 般 用 韦 氏 智力 量 表 测试 的 智商 ,都 是 以 100 为 平均 数 ,15 为 标准 
差 的 人 分数。 如 果 对 正 态 分 布 的 分 布 特征 比较 熟悉 的 话 , 根 据 分 数值 就 
可 以 判断 其 大 概 的 累积 分 布 概率 。 

小 曾 : 难怪 了 分 数 看 着 眼熟 ,原来 高 考 也 用 了 它 啊 。 想 当年 对 我 的 
高 考分 数 不 甚 了 解 ,现在 终于 知道 了 。 回 头 我 得 用 当年 的 高 考分 数 去 算 
算 我 在 高 考 大 军 中 的 位 置 。 


В 
а 
第 5 章 


薪酬 公平 性 分 析 


导语 : 企业 薪酬 体系 出 现 问 题 时 ,往往 会 使 用 薪酬 满意 
度 调查 法 来 进行 分 析 。 但 这 类 调查 比较 敏感 , 耗 时 较 长 , 且 
效果 不 佳 。 本 章 介绍 如 何 利用 现成 的 薪酬 数据 ,通过 薪资 结 
构图 .基尼 系数 .薪资 均衡 指标 公平 感 计量 模型 等 指标 和 方 
法 ,分 析 企业 薪酬 体系 的 合理 性 与 公平 性 。 
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В === 


小 姚 : 经 理 , 最 近 跟 一 些 员 工 聊天 ,发 现 他 们 对 薪酬 有 些 意见 呢 。 

Miss Ж: 怎么 回 事 ? 说 来 听 听 。 

小 姚 : 我 上 周 跟 一 分 公司 的 员工 聊天 , 谈 到 收入 的 时 候 , 发 现 他 们 对 
目前 的 收入 不 太 满意 。 于 是 我 与 他 们 的 主管 谈 了 一 下 ,发 现 的 确 存 在 一 
些 问题 。 我 总 结 了 一 下 ,主要 有 这 些 问题 。 


(1) 认为 公司 在 薪酬 调整 方面 比较 随意 。 每 年 工资 调整 的 时 候 , 调 
整 幅 度 没有 明确 标准 ,主要 取决 于 部 门 经 理 或 者 公司 领导 的 主观 感受 。 

(2) 工资 没有 很 好 地 体现 业绩 差异 。 部 分 员工 的 工资 基本 上 是 固定 
发 放 , 与 员工 的 工作 表现 、 实 际 努力 脱节 , 干 多 干 少 都 一 样 。 另 外 有 几 个 
员工 反映 绩效 考核 不 合理 ,业绩 较 好 的 员工 与 资格 老 但 业绩 普通 的 员工 
收入 差不多 ,甚至 还 低 一 些 ,感到 不 公平 。 

G) 没有 很 好 地 体现 岗位 特点 。 有 业务 主管 抱怨 ,同样 是 主管 ,固定 
工资 却 不 一 样 ,入 职 时 议价 能 力 越 强 ,入 职 后 的 固定 工资 就 越 高 ,而 不 是 
基于 工作 岗位 和 性 质 来 决定 。 

(4) 奖金 发 放 缺 乏 透明 性 。 员 工 的 年 终 奖 占 奖 金 的 绝 大 部 分 ,但 对 
年 底 能 拿 多 少 员 工 心里 没 底 , 并 且 年 终 奖 是 保密 的 。 

(5) 部 门 之 间 薪 酬 不 平衡 。 一 些 部 门 的 员工 反映 ,业务 部 门 和 支撑 
部 门 之 间 的 薪酬 差距 过 大 ,容易 导致 非 业务 部 门 的 员工 有 不 满 情 绪 。 

(6) 员工 工资 与 同行 业 其 他 公司 的 员工 相 比 ,缺乏 竞争 性 ,工资 水 平 
偏 低 。 


Miss 陈 : 总 结 得 很 好 ,很 细致 。 你 说 的 情况 ,涉及 薪酬 管理 的 许多 方 
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面 ,其 中 之 一 是 公平 性 问题 ,包括 了 内 部 公平 性 、 个 人 公平 性 和 外 部 公平 
性 。 咱 们 就 薪酬 公平 性 的 问题 做 深入 的 探讨 吧 , 我 把 你 谈 的 情况 归 类 整 
理 一 下 ,如 图 5-1 所 示 。 


| 内 部 公平 性 | [ 外 部 公平 性 个 人 公平 性 | 


n 
四 加 回回 回回 


图 5-1 薪酬 公平 性 的 分 解 示 意图 


小 姚 : 是 的 ,经 理 , 这 些 问题 影响 了 员工 的 薪酬 公平 感 ,导致 薪酬 满 
意 度 较 低 ,工作 积极 性 受到 一 些 影响 。 

Miss Ж: 那么 你 觉得 我 们 该 做 些 什么 呢 ? 

小 姚 : 我 认为 应 该 对 公司 的 薪酬 现状 进行 盘点 分 析 , 然 后 再 研究 制 
定 优化 改进 措施 。 上 毕竟 ,目前 这 只 是 某 个 分 公司 的 个 别 现象 ,不 能 代表 
整个 公司 的 情况 ,其 他 分 公司 或 部 门 有 没有 类 似 情况 ,还 需要 进行 调查 才 
能 确定 。 而 且 这 是 通过 谈话 得 到 的 信息 ,主观 性 较 强 ,没有 数据 做 支撑 ， 
难以 判断 真实 情况 。 

Miss Ж: 其 实 从 人 性 角度 来 看 ,人 对 财富 的 欲望 和 需求 是 一 直 存在 
的 ,所 以 通常 企业 员工 对 薪酬 的 满意 度 不 会 很 高 ,会 认为 收入 应 该 再 多 
些 。 即 使 是 一 些 薪酬 水 平 很 高 的 企业 ,它们 的 员工 薪酬 已 经 高 于 社会 水 
平行 业 水 平 很 多 了 ,但 仍然 难以 完全 满足 员工 对 薪酬 的 欲望 。 因 此 员工 
口头 反映 的 薪酬 问题 ,需要 深入 调研 和 分 析 , 以 实际 情况 为 依据 ,避免 出 
现 偏差 。 

小 姚 : 是 啊 ,不 能 道听途说 ,咱们 得 仔细 分 析 , 看 看 是 否 真 的 有 问题 。 
不 过 ,该 怎么 分 析 呢 ,要 不 要 做 一 次 薪酬 满意 度 问卷 调查 ,通过 问卷 来 收 
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集 数 据 进 行 分 析 呢 ? 

Miss 陈 : 可 以 进行 问卷 调查 ,不 过 在 这 之 前 ,我 们 可 以 利用 现 有 的 
薪酬 数据 ,开展 一 些 关 于 薪酬 公平 程度 方面 的 数据 分 析 ,对 薪酬 的 公平 性 
进行 总 体 的 了 解 和 把 握 ,然后 再 进行 问卷 调查 ,效果 会 好 不 少 。 

小 姚 : 通过 对 现 有 数据 的 分 析 就 能 知道 薪酬 公平 性 的 情况 吗 ? 

Miss Ж: 是 的 ,有 一 些 技术 可 以 从 总 体 上 对 薪酬 公平 程度 进行 分 
析 , 比 如 用 薪资 结构 图 法 、 基 尼 系 数 、 薪 酬 公平 感 计量 模型 等 ,下 面 我 们 来 
分 别 讲 讲 。 

小 姚 : 好 的 。 


@ 分 析 方 法 
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小 姚 : 薪资 结构 图 是 不 是 将 公司 的 薪酬 结构 用 图 表 的 方式 展示 
出 来 ? 

Miss Ж: 是 的 。 我 们 公司 实行 的 是 组 合 薪资 结构 ,包括 岗位 工资 、 能 
力 工资 和 绩效 工资 三 个 部 分 。 其 中 能 力 工资 以 能 力 为 导向 ,与 工龄 .学 
历 、. 职 称 ` 职 业 资格 、 持 证 等 因素 挂钩 ,反映 员工 的 能 力 水 平 , 这 部 分 薪酬 
相对 比较 固定 ;绩效 工资 与 员工 的 实际 工作 表现 挂钩 ,反映 员工 的 业绩 水 
平 , 这 部 分 薪酬 是 浮动 的 ;岗位 工资 与 担任 的 职务 的 重要 程度 .任职 要 求 
和 劳动 环境 对 员工 的 影响 挂钩 ,主要 受 岗 位 等 级 影响 ,并 且 对 能 力 工 资 和 
绩效 工资 都 有 影响 ,岗位 等 级 越 高 的 员工 ,能 力 工 资 和 绩效 工资 相应 会 比 
较 高 。 因 此 ,按照 我 们 公司 设置 的 12 级 岗位 等 级 ,合理 的 薪资 结构 图 如 
图 5-2 所 示 。 


第 5 章 薪酬 公平 性 分 析 p" 123 


3e+05 - 


2e+05 - 
ЮЕ 
Ë 
1е+05 - 
1 2 3 4 5 6 7 8 9 10 11 12 
岗位 等 级 
图 5-2 合理 的 薪资 结构 图 

薪资 结构 图 的 R 语句 如 下 : 


library (ggplot2) 

d<-read.csv ("第 五 章 /薪资 结构 .csv") 

d$ 岗 位 等 级 <-factor (d$ 岗 位 等 级 , levels=rev (d$ 岗 位 等 级 ) ,ordered=T) 
g<-ggplot (d) 

g+geom crossbar (aes (岗位 等 级 ,薪资 ,ymin= 最 小 值 , ymax= 最 大 值 ) ， 
fill="blue",alpha=0.7,colour="white")+ 


labs (title= "薪资 结构 图 ") 


小 姚 : 这 个 薪资 结构 图 我 学 过 呢 , 图 中 反映 了 很 多 和 薪资 有 关 的 
信息 。 

Miss 陈 : 你 说 说 看 ,反映 了 哪些 信息 ? 

小 姚 : 比如 薪酬 级 差 , 就 是 不 同等 级 之 间 薪 酬 相 差 的 幅度 。 从 图 上 
可 以 看 出 ,每 个 岗位 等 级 之 间 的 薪酬 是 有 差距 的 ,这 种 差距 不 能 太 大 ,和 否 
则 会 造成 员工 不 团结 ,也 不 能 太 小 变 成 吃 * 大 锅 饭 而 使 员工 没有 积极 性 。 
并 且 相 邻 层级 之 间 应 该 有 一 定 程 度 的 重合 , 即 低 一 级 岗位 的 员工 若 做 得 
好 ,可 以 获得 高 一 级 岗位 中 等 程度 左右 的 薪酬 。 当 然 也 需要 充分 考虑 等 
级 之 间 在 劳动 强度 、 复 杂 程 度 、 责 任 大 小 方面 的 差别 ,以 达到 激励 的 目的 。 
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由 于 岗位 级 别 越 高 ,岗位 之 间 的 劳动 差别 越 大 ,工作 价值 差别 越 大 ,所 以 ， 
高 级 别 岗位 之 间 的 薪酬 级 差 要 大 一 些 , 低 级 别 岗位 之 间 的 薪酬 级 差 要 小 
=; 

Miss 陈 : 说 得 很 好 。 图 5-2 是 标准 的 薪资 结构 图 ,代表 了 合理 的 薪 
资 等 级 分 布 结构 ,基于 标准 的 薪资 结构 图 ,我们 通过 观察 公司 实际 的 薪资 
结构 图 来 进行 对 比 ,就 可 以 分 析 薪 资 结 构 是 否 合理 了 。 

小 姚 : 明白 了 ,就 是 通过 对 比分 析 的 方法 ,用 实际 薪资 结构 图 与 标准 
薪资 结构 图 进行 对 比 来 分 析 薪 酬 设置 的 合理 性 。 
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Miss Ж: 还 可 以 用 基尼 系数 来 分 析 薪 资 公平 性 。 关 于 基尼 系数 ,你 
知道 什么 吗 ? 

小 姚 : 基尼 系数 大 名 易 易 ,是 用 来 反映 收入 差距 程度 的 。 我 经 常 在 
网 站 ,报纸 上 看 到 相关 报道 会 披露 一 些 国 家 的 基尼 系数 ,用 来 反映 国家 内 
部 的 贫 富 差 距 。 

Miss 陈 : 那么 你 说 说 什么 是 基尼 系数 ? 

小 姚 : 基尼 系数 是 1943 年 美国 经 济 学 家 阿尔 伯 特 。 赫 希 曼 根据 洛 
伦 茨 曲线 所 定义 的 ,判断 收入 分 配 公平 程度 的 指标 。 它 是 一 个 比例 数值 ， 
在 0 和 1 之 间 , 是 国际 上 用 来 综合 考察 一 个 国家 居民 内 部 收入 分 配 差异 
状况 的 重要 分 析 指标 。 

说 到 基尼 系数 就 必须 提 到 洛 伦 蒋 曲线 。 如 图 5-3 所 示 ,在 洛 伦 茨 曲 
线 中 , 若 设 实际 收入 分 配 曲 线 和 收入 分 配 绝对 平等 曲线 之 间 的 面积 为 A 
(图 中 灰色 阴影 部 分 ) ,实际 收入 分 配 曲 线 右 下 方 的 面积 为 B, 那 么 可 以 用 
A 除 以 (A 十 B) 来 表示 收入 的 不 平等 程度 ,这 个 数值 被 称 为 基尼 系数 或 称 
洛 伦 芯 系 数 。 公 式 很 简单 : 
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0.8 本 
收入 分 配 绝对 平 科 


0.6 7 


Lp) 


0.4 7 


0.2 -| 


5з 洛 伦 茨 曲线 


= 
А +В 

如 果 A 为 零 , 基 尼 系 数 为 零 , 表 示 收 入 分 配 完全 平等 ;如 果 B 为 零 则 
系数 为 1, 表 示 收 入 分 配 绝对 不 平等 。 收 入 分 配 越 趋向 平等 , 洛 伦 茨 曲线 
的 弧度 越 小 ,基尼 系数 也 越 小 ;反之 收入 分 配 越 趋向 不 平等 , 洛 伦 茨 曲线 
的 弧度 越 大 ,那么 基尼 系数 也 越 大 。 

Miss Ж: 很 好 ,用 基尼 系数 来 判断 收入 差距 的 标准 是 什么 呢 ? 

小 姚 : 通常 把 0.4 作为 收入 分 配 差距 的 “警戒 线 ”。 基 尼 系 数 大 于 等 
于 0.4 说 明 收入 差距 较 大 ,容易 引起 不 公平 的 感觉 ,容易 出 现 社会 震荡 ; 
而 基尼 系数 小 于 0.4 则 说 明 收 入 差距 相对 合理 或 平均 ,具体 见 表 5-1。 

Miss 陈 : 你 平常 看 到 的 基尼 系数 多 是 用 来 表示 一 个 国家 的 贫 富 差 
距 程 度 吧 ,有 没有 看 到 过 在 企业 内 用 基尼 系数 的 情况 呢 ? 

小 姚 : 没有 。 根 据 我 查 到 的 资料 ,基尼 系数 通常 是 用 于 反映 一 个 国 
家 的 收入 分 配 情况 , 没 怎么 听 说 过 企业 用 基尼 系数 的 情况 。 


G 
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#51 基尼 系数 各 分 值 及 其 意义 


基尼 系数 É Xx 基尼 系数 ж Ж 
低 于 0.2 收入 绝对 平均 0.4—0.5 收入 差距 较 大 
0.2—0.3 收入 比较 平均 0.5 以 上 收入 差距 悬殊 
0. 3 一 0.4 收入 相对 合理 


Miss Ж: 其 实 企 业 也 可 以 用 基尼 系数 来 反映 企业 内 部 的 收入 差 
距 ?, 甚 至 可 以 用 来 表达 任 一 群体 、 任 一 事情 上 的 差异 程度 ,不 限于 经 济 ， 
不 限于 收入 。 企 业 基 尼 系 数 有 不 少 优点 。 


A) 用 一 个 数值 就 可 以 反映 总 体 的 薪酬 差别 ,这 对 研究 经 营 管理 人 
员 和 职工 收入 增长 的 关系 是 十 分 必要 的 。 

(2) 基尼 系数 是 国际 经 济 学 界 常用 和 成 熟 的 度量 指标 ,也 是 我 国 常 
用 的 经 济 指标 ,具有 较 高 的 信 度 和 效 度 , 相 对 容易 理解 。 

(з) 基尼 系数 的 计算 比较 简便 。 计算 基尼 系数 的 方法 有 十 几 种 , 常 
用 的 四 种 计算 方法 有 : 直接 计算 法 、 拟 合 曲 线 法 、 分 组 计算 法 和 分 解法 。 
引用 百度 百科 上 的 一 个 计算 公式 如下: 


G= 1 一 工 {2 w +1} 


小 姚 : 经 理 , 是 不 是 对 企业 来 说 ,基尼 系数 的 大 小 就 反映 了 企业 内 部 
薪酬 差距 的 大 小 ? 

Miss Ж: 是 的 。 如 果 企 业内 部 的 基尼 系数 过 大 ,那么 员工 感觉 薪酬 
差距 过 大 ,就 会 产生 较 强 烈 的 不 公平 感 。 系 数 越 大 ,这 种 不 公平 感觉 就 越 


о 王 今 纤 , 马 彤 .运用 基尼 系数 增强 企业 薪酬 制度 的 公平 性 []. 经 济 与 管理 研究 ,2008(2) 。 

© 引用 自 百 度 百科 ,公式 含义 : 假定 一 定数 量 的 人 口 按 收入 由 低 到 高 排队 ,分 为 人 数 相 等 的 n 
组 ,从 第 1 组 到 第 i 组 人 口 累 计 收 入 占 全 部 人 口 总 收入 的 比重 为 w;, 则 说 明 : 该 公式 是 利用 定 积分 的 
定义 将 洛 伦 茨 曲线 的 积分 (面积 B) 分 成 个 等 高 梯形 的 面积 之 和 得 到 的 。 
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强烈 ,导致 人 心 不 稳 , 最 终 影 响 企 业 的 经 营 管理 。 
小 姚 : 明白 了 ,但 是 怎么 计算 企业 的 基尼 系数 呢 ? 
Miss Ж: 关于 计算 的 问题 ,我 们 等 一 下 结合 实际 数据 再 说 吧 。 


523 ”薪资 均衡 指标 Compa 


Miss Ж: 还 有 一 个 专门 用 于 衡量 薪酬 均衡 程度 的 统计 量 , 叫 薪资 均 
衡 指标 ,也 叫 Compa 系数 。 

小 姚 : 什么 是 薪资 均衡 指标 呢 ? 

Miss Ж: 薪资 均衡 指标 是 一 个 衡量 和 评估 酬 薪 体系 的 统计 量 , 是 一 
个 相对 指标 , 既 可 以 检测 员工 个 人 的 薪酬 水 平 是 否 均 衡 ,也 可 以 检测 部 门 
的 薪资 均衡 程度 ,还 可 以 检测 公司 在 行业 中 的 薪资 均衡 程度 。 所 以 ,薪资 
均衡 指标 广泛 应 用 在 人 力 资 源 管理 的 薪资 制度 诊断 和 管理 中 ,用 于 检测 
薪酬 分 布 是 否 均衡 ,是 人 力 资源 管理 中 一 个 有 力 的 计划 和 控制 工具 。 

小 姚 : 这 个 指标 计算 起 来 应 该 很 复杂 吧 ? 

Miss Ж: 不 然 ,薪资 均衡 指标 计算 起 来 比较 简单 , 它 是 平均 数 和 中 
位 数 的 比值 ,是 一 个 相对 数 , 计 算 公 式 如 下 : 

(1) 当 用 于 计算 个 人 薪资 均衡 指标 时 ,反映 的 是 单个 员工 的 工资 相 
对 部 门 或 者 企业 工资 范围 中 位 数 的 比例 ,这 种 情况 下 ,公式 中 的 分 子 就 是 
个 人 的 工资 数 ,公式 如 下 : 


个 人 实际 所 得 薪资 
部 门 或 企业 薪资 中 位 数 


(2) 当 用 于 计算 部 门 薪 资 均衡 指标 时 ,反映 的 是 该 部 门人 员工 资 与 
企业 工资 范围 中 位 数 的 比例 ,这 种 情况 下 ,公式 中 的 分 子 就 是 该 部 门 员 工 
的 平均 工资 ,公式 如 下 : 


Compa+ 人 二 
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(3) 当 用 于 计算 企业 在 行业 中 的 薪资 均衡 指标 时 ,反映 的 是 企业 的 
工资 水 平 在 行业 中 的 情况 ,这 种 情况 下 ,公式 中 的 分 子 就 是 企业 的 人 均 工 
资 ,分 母 则 是 人 才 市 场 中 行业 酬 薪 的 中 位 数 , 公 式 如 下 : 

姚 : 薪资 均衡 指标 的 计算 不 算 复杂 ,不 过 结算 结果 怎么 应 用 呢 ? 

Miss k: 主要 应 用 于 分 析 薪 资 的 均衡 程度 ,了 解 薪酬 水 平 在 群体 中 
处 于 什么 位 置 。 比 如 对 员工 个 人 来 说 , 当 其 薪资 均衡 指标 大 于 等 于 1. 0 
时 ,表明 总 体 上 员工 被 支付 了 等 于 或 高 于 他 们 工资 范围 中 位 数 的 工资 。 
对 胜任 岗位 的 员工 来 说 ,应 该 支付 等 于 或 高 于 中 位 数 的 薪资 。 

而 当 薪 资 均 衡 指 标 低 于 1.0 时 , 则 说 明 员 工 工资 偏 低 , 低 于 他 们 工资 
范围 中 位 数 的 工资 。 出 现 这 种 情况 要 分 析 原 因 , 可 能 的 原因 有 : 员工 个 
人 能 力 不 胜 任 工资 岗位 、 工 作 绩效 偏 低 、 工 龄 短 、 学 历 低 等 。 针 对 不 同 的 
原因 要 找到 解决 问题 的 方法 ,比如 安排 培训 、 加 强 激励 、 鼓 励 参 加 学 历 教 
育 , 等 等 。 

在 运用 薪资 均衡 指标 进行 分 析 时 ,最 好 分 析 同 类 人 员 ,比如 分 析 岗 位 
等 级 相同 部门 相同 .专业 相同 的 员工 ,这 样 才 会 具有 较 高 的 可 比 性 。 岗 
位 等 级 .部 门 .专业 等 因素 对 薪酬 都 有 较 强 的 影响 ,比如 高 岗位 的 人 员 薪 
酬 一 定 比 低 岗位 的 高 , 若 放 在 一 起 比较 ,必然 出 现 低 岗 位 人 员 的 薪酬 均衡 
指标 偏 低 的 现象 。 

小 姚 : 这 个 指标 感觉 很 实用 ,一定 得 试 试 。 


5.2.4 公平 感 计 量 模型 


小 姚 : 经 理 ,前 面 的 方法 都 是 从 总 体 上 去 把 握 薪酬 的 公平 均衡 程 
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度 , 但 如 果 要 准确 衡量 员工 个 人 的 薪酬 公平 感 ,该 怎么 办 呢 ? 是 不 是 要 做 
薪酬 满意 度 调查 呢 ? 

Miss 陈 : 不 一 定 需要 薪酬 满意 度 调查 。 这 种 调查 涉及 范围 比较 大 ， 
薪酬 公平 性 只 是 其 中 的 一 个 维度 而 已 。 通 常 薪酬 满意 度 调查 除了 调查 薪 
酬 公平 性 ,还 会 调查 薪酬 制度 执行 情况 .薪酬 福利 激励 效果 公司 可 信 度 
等 内 容 , 以 及 一 些 心理 层面 的 主观 感受 ,还 会 向 员工 征求 意见 ,调查 的 内 
容 和 范围 都 比较 大 。 并 且 最 重要 的 是 薪酬 满意 度 调 查 也 是 对 总 体 的 分 
析 ,很 少 分 析 个 人 。 

小 姚 : 那 该 怎样 才能 比较 准确 地 了 解 某 个 员工 的 薪酬 公平 感 呢 ? 

Miss Ж: 可 以 尝试 使 用 薪酬 公平 感 计量 模型 "来 分 析 员工 个 人 的 薪 
酬 公平 感 。 

小 姚 : 没 听 说 过 呢 ,这 个 薪酬 公平 感 计量 模型 是 什么 呢 ? 

Miss 陈 : 在 介绍 这 个 分 析 模 型 之 前 ,我 们 先 讨论 一 下 薪酬 公平 感 的 
相关 内 容 。 通 常 我 们 认为 一 件 事情 是 否 公平 ,会 考虑 两 个 要 素 ,你 知道 是 
哪 两 个 要 素 吗 ? 

小 姚 : 我 想 应 该 是 投入 和 回报 吧 。 

Miss 陈 : 很 好 ,投入 和 回报 的 情况 直接 影响 我 们 对 公平 感 的 认 知 。 如 
果 投 入 大 回报 小 ,就 会 觉得 吃亏 ,心理 不 平衡 ,公平 感 降低 ;如 果 投 入 和 回报 
相当 ,就 会 觉得 公平 ;如 果 投 入 小 回报 大 ,就 会 觉得 非常 满足 ,公平 感 上 升 。 

小 姚 : 感觉 和 企业 的 经 营 管理 有 相通 之 处 ,如 果 企 业 投 入 的 成 本 和 
收益 持平 ,就 是 一 亏 平衡 ;如 果 成 本 大 过 收益 ,就 是 亏损 ;如 果 收 益 大 于 成 
本 ,就 是 一 利 。 

Miss К: 是 的 ,你 说 对 个 人 而 言 ,如 果 要 获得 薪酬 上 的 公平 感 ,是 否 
也 要 考虑 投入 和 回报 呢 ? 


о 周 震 , 李 国 辉 , 石 爱 玲 . 薪酬 管理 中 的 公平 感 计量 模型 []]. 中 国 管理 科学 ,2005(10). 
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小 姚 : 是 的 。 

Miss 陈 : 那么 请 再 想 想 看 ,对 个 人 而 言 ,投入 是 什么 ,回报 又 是 什 
2%? 

小 姚 : 我 想 ,投入 就 是 工作 上 付出 的 劳动 ,回报 就 是 薪酬 ,是 吗 ? 

Miss Ж: 你 说 的 是 直接 的 投入 和 回报 ,范围 小 了 点 。 按 薪酬 公平 感 
计量 模型 的 研究 ,员工 的 投入 包括 了 “员工 身上 的 知识 、 技 能 和 健康 在 工 
作 中 的 资本 化 ,其 投入 量 还 要 受到 自身 努力 程度 和 工作 任务 的 影响 ”, 所 
以 投入 应 该 包括 五 个 要 素 : 技能 、 知 识 、 健 康 、 任 务 和 和 努力。 其 中 一 些 要 
素 在 员工 工作 之 前 就 已 经 投入 了 一 部 分 ,比如 技能 .知识 等 ,这 些 投 入 可 
用 学 历 .证 书 等 来 反映 ,都 是 员工 对 自身 的 投入 ,需要 且 应 该 资本 化 。 

回报 则 不 仅仅 是 薪酬 。 从 薪酬 的 全 面 性 来 看 ,包括 四 个 要 素 : 现金 
薪酬 .福利 .培训 和 晋升 机 会 。 另 外 在 工作 过 程 中 ,员工 的 知识 和 技能 在 
提升 ,这 些 在 工作 过 程 中 提升 的 知识 和 技能 也 应 计 入 工作 回报 。 

由 于 公平 感 是 员工 经 过 横向 和 纵向 比较 之 后 产生 的 一 种 主观 的 、 相 
对 的 感觉 ,所 以 如 果 能 计算 出 投入 和 回报 的 比率 ,就 能 比较 恰当 地 用 量化 
的 数据 来 反映 公平 感 。 这 个 比值 就 是 公平 感 比率 ,计算 公式 如 下 : 


— Qam um muli B t t RHB t fE 
了 知识 十 技能 十 健康 十 任务 十 努力 


小 姚 : 那么 是 否 可 以 根据 上 面 的 公式 得 出 如 下 推论 : 如 果 E~ 就 
表示 员工 对 薪酬 基本 满意 ,在 薪酬 上 具有 公平 感知 ;如 果 Е<0 就 表示 员 
工 对 薪酬 不 满意 ,薪酬 公平 感 低 , 己 越 小 公平 感 越 低 ; 正 >0 就 表示 员工 对 
薪酬 满意 ,E 越 大 满意 度 越 高 。 

Miss Ж: 是 的 。 

小 姚 : 那么 这 九 个 要 素 之 间 的 权重 怎么 确定 呢 ? 

Miss Ж: 权重 分 配 可 用 层次 分 析 法 来 计算 。 

小 姚 : 看 来 要 学 不 少 东 西 呢 , 能 介绍 一 下 层次 分 析 法 吗 ? 


Езжанж 
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Miss Ж. 层次 分 析 法 是 一 种 决策 方法 。 比 如 你 要 买 一 辆 车 ,经 过 初 
步 筛 选 , 看 上 了 三 个 车 型 ,各 有 优 缺 点 , 犹 殉 不 决 到 底 该 买 哪 一 辆 ,这 时 就 
可 以 使 用 层次 分 析 法 来 帮助 你 做 决定 。 层 次 分 析 法 可 以 将 主观 判断 通过 
两 两 比较 的 方式 转换 为 量化 数据 ,从 而 计算 每 个 车 型 的 权重 。 根 据 计 算 
结果 ,权重 最 高 的 那个 车 型 就 是 你 最 优 的 选择 。 

小 姚 : 这 个 方法 很 实用 呢 ,可 以 用 来 选 车 ,等 我 买 车 的 时 候 就 试 一 下 。 

Miss к: 你 学 习 了 之 后 ,不 仅 买 车 时 可 以 用 ,在 很 多 需要 决策 的 地 
方 都 可 以 使 用 。 层 次 分 析 法 可 以 将 主观 判断 量化 ,从 而 选择 最 优 方案 。 
这 个 方法 是 美国 运筹 学 家 匹 茨 堡 大 学 教授 萨 蒂 于 20 世纪 70 年 代 初 ,为 
美国 国防 部 研究 “根据 各 个 工业 部 门 对 国家 福利 的 贡献 大 小 而 进行 电力 
分 配 ” 课 题 时 ,应 用 网 络 系统 理论 和 多 目标 综合 评价 方法 ,提出 的 一 种 层 
次 权重 决策 分 析 方 法 。 

小 姚 : 比较 好 奇 为 什么 叫 层次 分 析 法 呢 ? 

Miss Ж: 因为 该 方法 通常 会 把 要 分 析 的 元 素 分 成 目标 层 、 准 则 层 、 
方案 层 等 层次 ,然后 在 此 基础 上 采用 定性 和 定量 结合 的 方法 来 进行 分 析 
和 决策 。 接 着 刚才 的 例子 ,比如 你 要 买 一 辆 车 ,那么 买 车 ”就 是 目标 ,这 
属于 目标 层 ;经 过 你 的 初步 筛选 , 选 出 了 三 个 车 型 ,而 你 要 在 这 三 个 车 型 
中 选择 一 个 购买 ,那么 这 三 个 车 型 就 叫 作 备 选 方案 ,属于 方案 层 ; 而 你 在 
选 购 一 辆 车 的 时 候 ,通常 会 考虑 一 些 要 素 ,比如 外 观 、 性 能 、 价 格 、 大 小 、 排 
量 、 用 途 等 ,会 根据 这 些 要 素来 综合 判断 ,那么 这 些 要 素 就 是 判断 的 准则 ， 
属于 准则 层 。 

小 姚 : R ,原来 层次 是 指 目标 层 .方案 层 和 准则 层 。 但 是 层次 分 析 法 
是 如 何 将 主观 的 判断 转换 为 量化 数据 的 呢 ? 

Miss 陈 : 层次 分 析 法 先 会 根据 重要 性 对 备 选 方案 进行 两 两 比较 , 计 
算 重 要 性 差异 ,用 数据 来 表示 。 比 如 方案 1 比方 案 2 重要 ,就 记 为 1, 同 等 
重要 ,就 记 为 0, 不 太 重 要 ,就 记 为 一 1, 通 过 这 种 方式 将 主观 判断 进行 量 
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化 。 各 个 方案 完成 两 两 比较 后 ,就 会 构成 一 个 判断 矩阵 ,然后 计算 这 个 矩 
阵 的 最 大 特征 根 和 对 应 的 特征 向 量 , 再 把 特征 向 量 归 一 化 后 即 为 权重 。 

小 姚 : 两 两 比较 构建 判断 矩阵 这 个 能 理解 ,但 是 最 大 特征 根 和 对 应 
的 特征 向 量 , 又 要 怎么 计算 的 呢 ? 

Miss 陈 : 具体 计算 可 借助 专业 的 层次 分 析 法 软件 " ,我 们 不 用 手动 
计算 。 通 常 我 们 只 需要 将 精力 放 在 方案 和 准则 之 间 的 两 两 比较 上 ,重点 
关注 主观 判断 量化 的 过 程 ,其 余 的 计算 过 程 交 给 软件 去 执行 即 可 。 软 件 
会 自动 计算 最 大 特征 根 和 特征 向 量 , 最 终 计 算出 各 个 方案 的 权重 。 

好 了 , 回 到 我 们 的 主题 薪酬 公平 感 计量 模型 。 研 究 者 使 用 了 层次 分 
析 法 来 进行 分 析 ,构建 了 以 下 三 个 层次 ,如 图 5-4 所 示 。 


G: 确 定 各 评价 
因素 的 权重 


J | 

Р! Р, Р, Р, Р, Р Р, Р, Р, 
技 知 健 = 努 现 福 培 Ei 
能 识 康 务 力 金 利 训 Ж 
Ж 机 

СШ = 


图 5-4 ”薪酬 评价 因素 的 层次 分 析 
(1) 目标 层 : 确定 各 评价 因素 的 权重 。 
(2) 准则 层 : 投入 量 、 回 报 量 。 
(3) 方案 层 : 技能 知识、 健康 、 任 务 、 努 力 、 现 金 薪酬 、 福 利 、 培 训 、 晋 
升 机 会 。 


ФО 推荐 使 用 层次 分 析 法 专用 软件 yaahp 10 以 上 版 本 ,该 软件 基本 功能 免费 。 
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研究 者 同时 也 计算 出 了 各 个 要 素 的 权重 ,具体 见 表 5-2, 
表 5-2 薪酬 评价 要 素 的 权重 


要 素 j 现金 | 二 y E 
技能 | 知识 | 健康 | 任务 | 努力 Меч 福利 | 培训 机 


yp + 


投入 量 | 0.45 | 0.47 | 0.09 | 0.04 | 0.14 | 0.26 


回报 量 | 0.55 | 0.06 | 0.04 0.42 | 0.24 | 0.09 | 0.15 


小 姚 : 看 上 去 ,投入 量 和 回报 量 的 权重 不 相同 ? 

Miss 陈 : 是 的 ,回报 量 的 权重 略 大 些 。 从 权重 表 上 可 以 看 出 ,对 投入 
影响 最 大 的 要 素 依次 是 : 技能 、 努 力 、 任 务 ,合计 权重 超过 80% ;对 回报 影 
响 最 大 的 要 素 依次 是 : 现金 薪酬 福利、 晋升 机 会 ,合计 权重 超过 80%. 
这 和 我 们 的 日 常理 解 吻合 。 

小 姚 : 要 素 权重 是 怎么 计算 出 来 的 呢 ? 

Miss 陈 : 刚才 说 了 ,这 是 通过 层次 分 析 法 建立 的 判断 矩阵 计算 出 来 
的 。 至 于 计算 的 具体 过 程 和 方法 ,如果 你 想 手 动 计算 ,可 以 看 看 有 关 和 矩阵 
运算 方面 的 内 容 , 学 习 如 何 计算 最 大 特征 根 ;如 果 你 想 把 重点 放 在 确定 准 
则 层 和 方案 层 之 间 的 关系 、 如 何 构 建 判断 矩阵 等 方面 的 话 ,直接 使 用 软件 
即 可 。 其 实 各 个 要 素 的 权重 已 经 计算 出 来 了 ,我 们 可 以 直接 使 用 ,不 一 定 
要 重新 去 计算 。 

小 姚 : 哈哈 ,还 是 用 软件 计算 效率 高 啊 。 


[5-3] 数据 准备 


Miss 陈 : 你 准备 一 些 薪 酬 数据 吧 ,我 们 结合 实际 数据 来 看 看 如 何 应 
用 这 些 方法 。 
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小 姚 : 好 的 ,我 整理 了 公司 去 年 每 个 员工 的 薪酬 数据 ", 具 体 见 


表 5-3。 
表 5-3 员工 薪酬 数据 示例 
部 门 部 门类 型 姓 名 岗位 等 级 | 全 年 收入 (元 ) 
经 理 室 管理 者 员工 927 11 96 000 
经 理 室 管理 者 员工 867 11 95 982.5 
企业 发 展 部 职能 部 门 я 33 9 95 876. 5 
项 目 管理 二 部 技术 部 门 员工 51 9 95 584 
经 理 室 管理 者 员工 863 11 94 823 
企业 发 展 部 职能 部 门 员工 32 9 93 860 
管线 部 生产 部 门 员工 1 020 2 93 159 
经 理 室 管理 者 员工 855 11 92 499 
综合 部 职能 部 门 员工 38 9 91 572. 4 
经 理 室 管理 者 员工 182 11 91 341 
事业 部 生产 部 门 员工 659 6 91 200 
经 理 室 管理 者 员工 135 10 90 487 
管线 部 生产 部 门 员工 634 7 89 664 
管线 部 生产 部 门 员工 1 006 4 85 426. 3 


Miss Ж: 有 了 这 些 数据 ,我 们 就 可 以 进行 计算 和 分 析 了 。 


© 本 数据 纯 属 虚构 。 
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@ 分 析 过 程 


541 用 薪资 结构 图 分 析 薪 酬 结构 合理 性 


Miss Ж: 首先 我 们 用 薪资 结构 图 法 来 进行 分 析 。 

小 姚 : 经 理 , 我 根据 上 一 年 度 实际 的 薪资 数据 绘制 了 薪资 结构 图 ,请 
您 看 看 。 由 于 同一 岗位 等 级 的 薪资 极 差 比较 大 ,所 以 我 用 了 箱 型 图 来 表 
示 , 如 图 5-5 所 示 。 
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岗位 等 级 
5-5 ”公司 实际 薪资 结构 图 (各 岗位 层级 箱 形 图 ) 


薪资 结构 图 实 ( 实 际 ) 的 R 语句 如 下 : 


library (ggplot2) 

d<-read.csv ("第 五 章 /薪酬 分 析 .csv") 

d$ 岗 位 等 级 <-factor (d$ 岗 位 等 级 , levels=rev (d$ 岗 位 等 级 ) ,ordered=T) 
g<-ggplot (d) 

g+geom boxplot (aes (岗位 等 级 ,应 发 工资 ) ,fil1="blue"valpha=0.7)+ 
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labs (title= "薪资 结构 图 (实际 ) ",у= "薪资 ") 


Miss Ж: 有 了 实际 的 薪资 结构 图 ,对 比 标准 薪资 结构 图 ,我 们 就 可 
以 进行 比较 分 析 了 。 分 析 薪 资 结 构图 要 关注 和 解答 以 下 问题 。 

(1) 各 岗位 等 级 之 间 是 否 保持 一 定 的 级 差 ? 是 否 岗位 等 级 越 高 薪资 
越 高 ? 

(2) 每 个 岗位 等 级 的 薪酬 是 否 保持 一 定 级 差 ? 随 着 岗位 等 级 上 升级 
差 范围 是 否 逐 渐 加 大 ? 

(3) 是 否 存 在 低 岗 位 高 薪酬 .高 岗位 低 薪 酬 的 现象 ? 

小 姚 : 我 试 着 分 析 一 下 。 

(1) 从 实际 薪资 结构 图 可 以 看 出 ,各 岗位 等 级 之 间 保 持 了 一 定 的 级 
差 , 且 岗位 等 级 越 高 ,薪资 就 越 高 ,级 差 也 越 大 。 不 过 也 出 现 了 一 些 例外 
情况 ,比如 二 岗 薪 酬 高 于 三 岗 \ 八 岗 薪酬 低 于 七 岗 、 十 一 岗 薪酬 略 侈 于 十 
岗 ,有些 异 常 。 

(2) 每 个 岗位 等 级 都 有 一 定 的 薪酬 幅度 ,而 且 随 着 岗位 等 级 的 上 升 ， 
薪酬 幅度 的 变化 范围 在 增加 。 但 是 八 、 九 ,十 一 岗 的 薪酬 幅度 比较 小 。 

G) 存在 低 岗 位 高 薪 柄 高 岗位 低 薪酬 的 现象 。 比 如 二 、 四 \、 五 、 六 、 
入 \ 九 .十 岗 , 有 少数 人 的 薪酬 远 远 高 出 同 岗位 其 他 人 员 ,其 至 超过 高 几 个 
层级 人 员 的 最 高 收入 ,而 九 岗 则 出 现 一 个 员工 收入 过 低 的 现象 (图 中 的 小 
黑 点 表示 异常 值 ) 。 


Miss 陈 : 很 好 ,不 过 这 是 对 总 体 情 况 的 分 析 , 发 现状 况 时 还 需要 进 
一 步 细 化 分 析 。 你 知道 薪酬 不 仅 受到 岗位 等 级 的 影响 ,还 受到 岗位 性 质 、 
技能 水 平等 因素 的 影响 ,比如 你 发 现存 在 低 岗位 高 薪酬 现象 ,那么 还 需要 
进一步 研究 岗位 性 质 。 对 于 市 场 营销 、 项 目 管理 类 岗位 ,由 于 这 两 类 岗位 
人 员 的 收入 和 业绩 紧密 挂钩 ,绩效 工资 占 薪酬 比例 大 , 极 有 可 能 出 现 低 岗 
位 高 薪酬 的 现象 ,这 种 情况 的 低 岗 位 高 薪酬 现象 是 合理 的 ,也 是 可 以 解释 
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的 。 但 如 果 是 一 些 职 能 、 技 术 类 岗位 出 现 了 低 岗位 高 薪酬 的 现象 ,就 需要 
引起 注意 了 。 

小 姚 : 嗯 ,明白 了 。 用 薪资 结构 图 法 的 方式 可 以 很 直观 地 看 到 各 岗 
位 等 级 的 薪酬 分 布 ,以 及 各 个 岗位 等 级 的 薪酬 水 平 、 级 差分 布 . 异 常 值 等 
情况 ,这 对 研究 和 分 析 薪 酬 的 总 体 情况 .薪酬 机 制 的 合理 性 非常 有 用 。 看 
到 问题 后 ,结合 进一步 的 研究 分 析 ,就 能 找 出 原因 并 制定 调整 措施 了 。 


542 用 基尼 系数 分 析 总 体 薪酬 差距 


Miss Ж: 接 下 来 我 们 看 看 如 何 计算 基尼 系数 。 实 际 上 ,用 R 语言 可 
以 很 方便 地 计算 基尼 系数 ,并 且 绘 制 洛 伦 茨 曲线 。 
小 姚 : 好 的 ,我 来 试 试 吧 。 根 据 去 年 的 薪酬 数据 ,我 用 R 语言 的 ineq 
包 中 的 Gini 函数 计算 基尼 系数 ,计算 结果 如 下 : 
Сла =0. 38 
|а #2 ИТ 0 ИҢ Ж.Ш 5-6 所 示 。 
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图 5—6 谦 多 顺 公 司 的 薪酬 洛 伦 茨 曲线 
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所 用 有 语句 如 下 : 


library(ineq) 
d<-read.csv ("第 五 章 /薪酬 分 析 .csv") # 读 取 数 据 


Gini (d$ 应 发 工资 ) # 计 算 基 尼 系 数 
plot (Lc (ds 应 发 工资 ) ,main= " 谦 多 顺 公 司 薪资 洛 伦 茨 曲线",col= 2) 
# 绘 制 洛 伦 茨 曲线 


Miss 陈 : 很 好 。 从 计算 结果 看 到 基尼 系数 等 于 0. 38, 说 明 公司 的 总 
体 薪 酬 差距 并 不 算 大 ,收入 差距 相对 合理 。 虽 然 你 发 现 了 部 分 员工 反映 
收入 差距 大 ,觉得 不 公平 ,但 从 总 体 上 看 并 不 是 这 样 ,说 明 这 可 能 只 是 个 
别 分 公司 中 出 现 的 个 别 现象 。 倒 是 部 分 员工 提 到 收入 没有 按 业 绩 体现 差 
异 , 干 多 干 少 一 个 样 ,这 种 现象 需要 关注 。 

小 姚 : 看 来 经 过 数据 分 析 之 后 ,我们 对 公司 的 薪酬 现状 了 解 得 更 清楚 
了 。 不 过 经 理 , 如 果 基 尼 系 数 计算 出 来 的 结果 大 于 0. 4, 那 么 该 怎么 办 呢 ? 

Miss Ж: 如 果 基 尼 系 数 计算 出 来 的 结果 大 于 0. 4, 是 不 是 就 不 好 呢 ? 
是 不 是 需要 进行 调整 呢 ? 其 实 这 方面 还 没有 定论 ,要 结合 企业 实际 情况 
来 判断 。 如 果 公司 处 于 高 速 发 展期 ,创业 期 等 发 展 阶 段 ,需要 快速 开拓 市 
场 、 创 造 利润 ,就 需要 加 大 员工 激励 力度 ,将 有 限 的 人 工 成 本 投入 核心 人 
员 身 上 ,给 核心 人 员 高 激励 性 薪酬 , 拉 开 核心 人 员 和 普通 人 员 的 薪酬 差 
距 , 这 种 情况 下 基尼 系数 就 会 偏 大 ,但 这 对 企业 发 展 是 有 利 的 。 如 果 企 业 
处 于 稳定 发 展期 ,以 员工 队伍 稳定 为 主要 目标 ,就 需要 体现 薪酬 公平 性 ， 
提高 员工 薪酬 公平 感 , 这 种 情况 下 基尼 系数 就 不 宜 偏 大 。 

此 外 ,企业 的 类 型 也 会 影响 基尼 系数 。 比 如 研发 型 企业 ,高 级 知识 分 
子 多 ,产品 开发 周期 长 ,为 保证 研发 队伍 稳定 ,员工 之 间 的 薪酬 差距 不 宜 
过 大 ,这 种 情况 下 基尼 系数 会 偏 低 。 而 对 于 一 些 互 联网 企业 ,为 追求 快速 
发 展 ,对 员工 的 激励 程度 很 大 ,特别 是 能 带 来 业绩 的 员工 ,其 薪酬 可 能 会 
比 其 他 员工 高 数 倍 或 数 十 倍 ,这 种 情况 下 基尼 系数 则 偏 高 。 

国有 企业 受到 工资 总 额 的 限制 ,基尼 系数 倾向 于 偏 低 ,而 民营 企业 和 
外 资 企 业 不 受 此 限制 ,基尼 系数 倾向 于 偏 高 。 实 际 上 一 些 知 名 企业 的 基 
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尼 系 数 会 偏 高 ,特别 是 一 些 国外 上 市 企业 ,其 中 高 层 管理 人 员 的 薪酬 与 普 
通 员 工 的 薪酬 差距 非常 大 ,加 上 股票 .期 权 等 高 管 专 享 的 长 期 性 激励 措 
施 , 这 类 企业 的 基尼 系数 可 能 会 相当 高 。 但 不 能 赁 基尼 系数 说 这 类 企业 
的 薪酬 不 合理 .员工 薪酬 满意 度 低 、 公 平 感 低 , 企 业 不 稳定 ,相反 这 些 企业 
可 能 发 展 得 相当 好 。 

小 姚 : 明白 了 ,就 是 说 要 结合 企业 的 实际 情况 来 理解 基尼 系数 。 

Miss 陈 : 是 的 ,如 果 发 现 基 尼 系 数 高 ,那么 首先 要 分 析 企 业 的 实际 
情况 。 确 属 异常 时 ,为 促进 企业 内 部 分 配 差距 在 合理 范围 之 内 ,可 以 考虑 
进行 薪酬 调整 ,将 基尼 系数 定位 到 合理 范围 。 确 定 基尼 系数 调整 目标 后 ， 
可 以 倒 推 高 层 管理 人 员 的 薪酬 标准 ,重新 调整 薪资 结构 。 


543 用 薪资 均衡 指标 分 析 各 岗位 薪资 均衡 程度 


小 姚 : 经 理 , 我 来 计算 一 下 薪资 均衡 指标 Compa 系数 吧 。 先 试 试 计 
算 个 人 Compa 系数 。 找 个 部 门 试 试 ,哈哈 ,就 拿 财 务 部 试验 吧 。 计 算 结 
果 如 图 5-7 所 示 。 


' ' 0 ' ' 
员工 55 4156 4157 员工 58 员工 985 员工 986 员工 987 员工 988 员工 989 


图 5-7 谦 多 顺 公司 财务 部 员工 Compa 系数 
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R 语句 如 下 : 


library(ggplot2) 

d<- геаа.сзу ("第 五 章 /薪酬 分 析 .csv") 

а<-ага й в == "ИЭ", 

d$compa< - ds 应 发 工资 /median (d$ 应 发 工资 ) 

g<-ggplot (d) 

g+geom bar (aes (姓名 , compa)，,stat="identity",fill="red", 
alpha=0.7)+geom hline(size=2,yintercept=1,colour="blue", 
alpha=0.7)+geom text (aes (姓名 , compa, label= round (compa, 2)), 
vjust=1,colour="white")+labs (title=" 财 务 部 员工 compa 系数 ",x="") 


根据 计算 结果 可 以 看 到 ,58 号 员工 的 Compa 系数 最 高 ,55、57、989 
号 员工 的 Compa 系数 大 于 1, 说 明 其 薪酬 水 平 偏 高 ,987 号 员工 的 Compa 
系数 等 于 1, 正好 均衡 ,其 他 人 员 的 Compa 系数 都 小 于 1。 计算 结果 和 实 
际 情况 比较 一 致 ,58 号 员工 是 财务 部 经 理 ,55、57、989 号 员工 是 财务 部 的 
三 位 骨干 人 员 ,987 号 是 一 个 老 员工 ,其 他 几 人 是 新 来 的 人 员 。 

Miss 陈 : 很 好 。 

小 姚 : 如 果 用 薪资 均衡 指标 来 分 析 部 门 的 薪酬 会 是 怎样 的 情况 呢 ? 

Miss 陈 : 如 果 把 薪资 均衡 指标 用 来 衡量 部 门 或 者 分 公司 的 薪酬 水 
平 ,那么 主要 是 用 来 考察 不 同 部 门 和 分 公司 之 间 的 薪酬 水 平 是 否 公平 ， 
企业 的 薪资 差距 是 否 与 企业 的 战略 相 匹配 。 比 如 ,通过 薪资 均衡 指标 
可 以 考察 不 同 部 门 之 间 的 薪酬 水 平 , 结合 分 析 部 门 之 间 的 薪酬 差距 ， 
从 而 判断 部 门 之 间 的 薪资 差距 是 否 合理 ,是 否 符合 部 门 的 价值 权重 。 
分 析 同 类 部 门 之 间 的 薪资 差距 ,还 可 以 研究 出 现 差距 的 原因 。 是 人 为 
误差 (有 些 部 门 之 间 考 核 一 团 和 气 , 人 人 得 高 分 ), 还 是 部 门 业 绩 差异 
所 致 。 

ЛЖ: 明白 了 。 现 在 我 再 来 计算 一 下 各 个 部 门 的 薪资 均衡 指标 吧 ， 
选 一 些 职能 部 门 来 试 试看 。 计 算 结果 如 图 5-8 所 示 。 
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Compa 系 数 


安全 保卫 部 。 财务 部 党 群 部 。 企业 发 展 部 人 力 资 源 部 ”综合 部 
部 门 
5-8 谦 多 顺 公 司职 能 部 门 Compa 系数 


R 语句 如 下 : 


library (ggplot2) 

d<-read.csv ("第 五 章 /薪酬 分 析 .csv") 

d<-d[qs$ 部 门类 型 ==" 职 能 部 门 ", ] 

d$ 部 门 <-droplevels (d$ 部 门 ) 

d. 中 位 数 <-median (d$ 应 发 工资 ) 

dd. 平 均 数 <-tapply (d$ 应 发 工资 , d$ 部 门 , mean) 

d.compa<-data.frame (Compa=d .平均 数 /d. 中 位 数 ) 

d.compa$ 部 门 <-rownames (d. compa) 

g<-ggplot (d.compa) 

g+geom bar (aes (8Ë[] ,Compa) , stat="identity",fill="red", 
alpha=0.7)+geom_hline(size=2,yintercept=1,colour="blue", 
alpha=0.7)+1labs (title=" 职 能 部 门 Compa RÆ", х= "", y="Compa")+geom 
_text (aes (部 门 , Compa, label= round (Compa, 2)), vjust=1, colour = 
"white") 


哇 ,看 来 党 群 部 的 薪酬 水 平 很 高 啊 。 
Miss К: 这 可 能 和 党 群 部 人 数 少 、 岗 位 等 级 高 有 关系 。 总 体 来 看 , 财 
务 部 、 人 力 部 ,企业 发 展 部 等 部 门 的 薪酬 水 平 是 偏 高 的 ,安保 部 和 综合 部 
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处 于 均衡 位 置 ,这 与 我 们 对 部 门 的 价值 评估 结果 是 基本 一 致 的 。 

小 姚 : 那么 ,如 果 用 公司 薪酬 和 行业 薪酬 来 计算 薪资 均衡 指标 ,就 可 
以 分 析 公司 薪酬 在 行业 中 的 竞争 力 , 是 这 样 吗 ? 

Miss 陈 : 是 的 。 将 公司 的 薪酬 水 平 同 行业 薪酬 中 位 数 进行 比较 , 计 
算 薪资 均衡 指标 ,结果 等 于 1.0, 说 明 公司 的 薪酬 水 平 与 行业 是 匹配 的 ， 
即 公司 薪酬 水 平 上 涨幅 度 与 通货 膨胀 水 平 相当 ; 如 果 超 过 1. 0, 则 说 明 公 
司 的 薪酬 水 平 领先 于 行业 薪酬 ;如 果 小 于 1.0, 则 说 明 公 司 的 薪酬 水 平 落 
后 于 行业 薪酬 。 基 于 此 ,可 以 通过 薪资 均衡 指标 来 判断 企业 的 薪酬 体系 
是 否 达到 了 人 力 资 源 管理 的 目标 ,是 否 匹配 公司 发 展 战略 和 发 展 阶段 。 

小 姚 : 那么 对 公司 内 部 的 岗位 而 言 , 是 否 可 以 通过 某 岗 位 薪资 ,结合 
该 岗位 市 场 薪酬 数据 计算 薪资 均衡 指标 ,来 分 析 该 岗位 薪酬 在 市 场 中 的 
竞争 力 呢 ? 

Miss 陈 : 当然 可 以 。 我 们 可 以 用 薪资 均衡 指标 来 分 析 公 司 各 岗位 
薪资 在 社会 行业 中 的 相对 地 位 , 反 过 来 也 可 以 根据 薪资 均衡 指标 来 调节 
这 些 岗位 的 薪酬 水 平 。 

小 姚 : 太 好 了 ,这 解决 了 长 期 困扰 我 们 的 问题 。 由 于 没有 对 标 , 没有 
计算 薪资 均衡 指标 这 类 数据 ,我 们 一 直 拿 不 准 给 员工 的 薪酬 是 高 了 还 是 
低 了 。 即 使 有 了 外 部 的 薪酬 数据 ,该 如 何 对 标 ,是 对 平均 数 还 是 中 位 数 ， 
也 比较 困惑 。 但 是 现在 我 可 以 计算 各 个 岗位 在 行业 中 的 薪资 均衡 指标 ， 
分 析 各 个 岗位 的 薪酬 水 平 在 行业 中 的 地 位 ,做 出 合理 分 析 和 评估 。 若 某 
个 岗位 薪酬 异常 ,就 可 以 结合 公司 薪酬 战略 ,调整 和 优化 岗位 的 薪酬 。 

Miss 陈 : 是 的 。 不 过 我 们 现在 缺少 行业 薪酬 数据 ,暂时 还 不 能 进行 
这 样 的 分 析 。 这 类 数据 有 公开 的 ,也 有 商业 的 。 公 开 数 据 有 国家 统计 局 、 
地 方 政 府 人 力 资源 和 社会 保障 部 门 发 布 的 薪酬 数据 ,但 这 类 数据 通常 是 
用 平均 数 计算 得 来 的 ,很 少见 到 用 中 位 数 。 商 业 薪 酬 数 据 是 通过 市 场 调 
研 公司 、 人 力 资 源 管理 咨询 公司 、 人 才 市 场 等 单位 定期 收集 整理 而 成 , 作 


第 5 章 ЖАЗ ИЙ Wa 143 


为 产品 销售 。 这 类 数据 比较 全 面 、 详 细 ,使 用 了 平均 数 和 中 位 数 等 数据 ， 
而 且 行业 分 类 也 较 细 , 不 过 需要 花 钱 购买 。 


544 用 公平 感 计量 模型 分 析 员工 对 薪资 的 公平 感 


Miss Ж: 最 后 我 们 试 试 用 薪酬 公平 感 计量 模型 分 析 员 工 的 薪酬 公 
平 感 。 这 个 方法 比 前 面 的 方法 都 要 复杂 一 些 , 工 作 量 会 大 一 些 。 首 先 要 
收集 数据 ,这 个 环节 需要 设计 一 份 关于 测评 要 素 的 等 级 评定 表 , 采 用 360° 
评价 法 开展 问卷 调查 ,通过 上 级 、 同 级 、 下 级 评分 ,计算 评价 要 素 评分 均 
值 ,才能 代入 公平 感 比率 公式 进行 计算 。 

小 姚 : 为 了 学 习 如 何 应 用 薪酬 公平 感 计量 模型 ,我 先 模拟 一 次 评分 
吧 。 要 设计 评分 表 并 开展 调查 得 花 不 少时 间 ,咱们 暂时 省 去 评价 表 设 计 
和 360 "问卷 调查 的 环节 ,直接 模拟 评分 结果 吧 。 经 理 , 您 看 行 吗 ? 

Miss 陈 : 可 以 。 

小 姚 : 太 好 了 ,我 的 模拟 评分 结果 见 表 5-4。 

表 5-4 ”薪酬 公平 感 计量 模型 模拟 评分 表 


要 素 现金 | = „| 晋升 
К: 技能 | 知识 | 健康 | 任务 | 努力 薪酬 福利 | 培训 机 会 


投入 量 | 90 90 95 70 85 


回报 量 70 70 80 80 40 50 


将 上 面 的 评分 数据 代入 薪酬 公平 感 计量 模型 的 计算 公式 ,结果 如 下 : 


人 QQ 到 多 亲本 十 福 利 十 培训 十 亚 升 机 会 十 知识 + 技能 1.01 
了 知识 + 技能 + 健康 十 任务 十 努力 


太平 感 比率 

从 结果 来 看 ,我 的 薪酬 公平 感 恰好 在 均衡 状态 ,也 就 是 说 对 感觉 薪酬 
公平 ,哈哈 。 

Miss Ж: 是 的 。 不 过 从 具体 得 分 上 看 ,你 在 技能 .知识 、 健 康 . 努 力 上 

的 得 分 较 高 ,这 说 明 你 是 公司 需要 的 人 才 , 但 获得 的 现金 薪酬 .福利 维度 
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上 得 分 一 般 ,培训 、 晋 升 机 会 更 少 ,工作 中 获得 的 知识 和 技能 也 有 不 足 。 
虽然 有 薪资 公平 感 , 但 应 加 强 培训 锻炼 ,适当 增加 工作 任务 ,提供 更 多 学 
习 机 会 ,促进 你 的 快速 成 长 ,在 此 基础 上 还 可 提供 晋升 机 会 。 

小 姚 : 经 理 ,您 说 得 太 好 了 , 啥 时 候 能 有 晋升 的 机 会 啊 ! 

Miss Ж: 加 强 学 习 吧 ,相信 不 久 你 就 会 有 机 会 的 。 


导语 : 企业 在 评选 优秀 人 才 时 ,需要 对 员工 的 综合 能 力 
进行 评估 ,以 区 分 优 劣 。 但 在 实际 评估 时 ,往往 带 有 和 较 强 的 
主观 因素 ,导致 出 现 误差 ,有 误 选 、 漏 选 的 现象 ,没有 选拔 出 
真正 优秀 的 人 才 。 本 章 介绍 如 何 使 用 综合 评价 法 ,将 反映 员 
工 综合 能 力 的 各 种 评价 指标 进行 量化 ,通过 量化 评估 来 选拔 
优秀 人 才 。 
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В ara 


小 曾 : 经 理 , 根 据 今年 的 工作 计划 ,本 月 就 要 启动 公司 优秀 人 才 评选 
IET. 

Miss 陈 : 请 按照 工作 计划 组 织 优秀 人 才 评 选 吧 。 

小 曾 : 好 的 。 不 过 根据 去 年 的 评选 情况 ,今年 我 们 想 优化 评选 方法 ， 
主要 是 进一步 提高 优秀 人 才 选 拔 的 公平 性 和 客观 性 。 

往年 我 们 评选 优秀 人 才 ,主要 是 由 各 单位 上 报 ,我 们 组 织 专 家 评审 小 
组 进行 评选 。 但 在 评选 过 程 中 发 现 评选 的 主观 性 很 强 , 常 会 发 生 不 太 优 
秀 的 员工 进入 了 优秀 人 才 队 伍 , 业 绩 不 错 的 员工 却 被 漏 选 了 ,效果 不 太 理 
想 。 我 听 到 一 些 单位 和 员工 反映 评选 过 程 欠缺 公平 性 。 

Miss Ж: 看 来 我 们 需要 优化 评选 的 方法 ,减少 主观 评价 的 影响 以 及 
因此 造成 的 误差 ,选拔 真正 优秀 的 综合 素质 能 力 高 的 员工 ,提高 评选 的 
公平 性 和 客观 性 。 

小 曾 : 是 啊 。 不 过 要 怎么 优化 评选 方法 ,减少 评选 过 程 中 的 主观 性 ， 
提高 选拔 的 公平 性 呢 ? 这 方面 我 还 没有 什么 思路 。 

Miss Ж: 可 以 使 用 综合 评价 法 ,结合 目标 优化 矩阵 、 标 准 分 等 统计 
方法 ,将 员工 的 各 项 能 力 要 素 进行 量化 ,根据 量化 的 结果 来 评定 优 劣 。 这 
些 方法 可 以 将 主观 判断 转化 为 客观 量化 的 数据 ,从 而 提高 公平 性 。 


@ 分 析 方法 


小 曾 : 什么 是 综合 评价 法 呢 ? 
Miss к: 解释 综合 评价 法 之 前 ,我 们 先 谈 谈 绩效 考核 吧 。 


小 曾 : 和 绩效 考核 有 关系 吗 ? 
Miss Ж: 是 的 ,有 些 关系 。 现 在 说 说 你 的 月 度 绩效 考核 情况 吧 。 
小 曾 : 我 每 月 的 绩效 考核 是 按照 关键 绩效 指标 (KPD 进行 考核 的 , 绩 


效 考核 表 见 表 6-1。 
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表 6-1 小 曾 月 度 关键 绩效 指标 考核 表 
序 | 工作 ма]. 
号 | 类 别 KPI 工作 要 求 权重 FIFA 
Amm | ТЛ 36 日 以 前 将 各 部 门下 性 晚 发 一 天 /部 门 扣 1 分 
计划 编制 | 培训 计划 反馈 给 各 个 部 门 ,做 | 6 | 漏 发 -个 /部 门 扣 1 分 
好 培训 实施 前 沟通 ,提醒 工作 
月 度 培训 部 门 变更 培训 项 目 需 经 培 
|| 培训 | 月 度 培训 | 训 主管 同意 , 培训 主管 于 30| 。 | 晚 发 一 天 /部 门 扣 1 分 
计划 | 计划 变更 | (31) 日 前 将 新 培训 计划 反馈 给 漏 发 一 个 /部 门 扣 1 分 
管理 培训 部 站 
公司 临时 | 公司 领导 下 达 培训 指令 后 半 个 无 培训 方案 不 得 分 
ош 训 | 工 作 日 内 制订 出 培训 方案 , 报 | 5 | 方案 通过 不 下 发 不 
安排 | 领导 批准 后 立即 下 发 得 分 
每 项 培训 开展 前 3 天 提醒 培训 
кинин | 部门 准备 培训 ,提交 培训 教程 | 。 | 少 提醒 一 次 扣 1 分 
和 培训 试卷 ,培训 开展 前 1 天 晚 提醒 一 天 扣 1 分 
咨询 培训 准备 进展 
培训 材料 | 根据 月 度 培训 计划 ,检查 培训 
管理 。 | 部 门 培训 材料 准备 情况 G. 
qa 协助 培训 部 门 做 好 培训 开展 的 оча 
ний (ЖЕТЕ. АЕА АЯТ ВИ 6 Кылы. „у 
设备 以 及 培训 材料 等 м 
| 每 月 抽查 次 数 不 得 低 于 月 度 培 
培训 抽查 mH SWT 6 | 少 一 次 扣 1 分 
培训 效果 | 对 每 个 培训 项 目 培训 的 结果 要 
评估 зе, зган аа 
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续 表 
KPI 工作 要 求 ач 评分 方式 
paga, | 对 培训 过 程 中 发 生 的 异常 问题 | 。 | 有 异常 不 报告 一 次 扣 
ИЕЭ ЕЯ 2 分 
‚жи ИЙЛА яз 日前 将 上 月 度 培训 总 结 | 6 Rn 
管理 | 上 交 无 总 结 不 得 分 
建议 
培训 档案 | 对 每 个 培训 项 目 要 建立 档案 ， =. 
管理 。 | 形成 培训 档案 库 ет 
手指 口述 | 每 个 月 对 公司 每 个 部 门 .分 厂 、 
课 下 | 抽 查 、 学 工段 至 少 抽查 一 个 人 做 手指 口 | 4 | 少 1 人 记录 , 扣 0.5 分 
培训 | 习 卡 抽查 | 述 .学 习 卡 抽查 
3 
资料 导师 带 徒 | 每 个 月 对 公司 每 个 部 门 .分 厂 、 
管理 | 培训 记录 、| 工段 至 少 抽查 一 个 人 做 培训 记 | 4 | 少 1 人 记录 , 扣 0.5 分 
培训 笔记 | 录 、 培 训 笔记 抽查 
迟到 .早退 一 次 扣 1 
a | 当月 无 迟到 、 早退, 旷工、 请 分 ,旷工 扣 5 分 /天 
考勤 纪律 | pag 10 | 请 假 一 次 扣 工分 (不 满 
勤 情况 下 ) 
4 | 劳动 与 他 人 发 生 争执 一 次 
纪律 扣 2 分 
o | 文明 办 公 , 团 结 同事 ,积极 参与 不 参加 集体 活动 一 次 
工作 纪律 | 集体 活动 5 | 扣 1 分 
不 团结 同事 一 次 扣 
1 分 
完善 工作 | 
ФА |2 “| 针对 培训 做 出 有 效 改进 ,每 月 We 
“| 提升 | 各 | 接受 一 次 专业 培训 © 2 
领导 交办 
6 | 其 他 | 的 其 他 | 爱 厂 如 家 ,服从 公司 工作 安排 “| 10 | 视 情节 轻重 
事项 


Miss Ж: 那么 你 每 月 的 绩效 考核 结果 如 何 计算 呢 ? 
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小 曾 : 首先 您 根据 我 当月 的 工作 表现 ,对 考核 表 中 的 各 个 指标 评分 ， 
然后 将 各 项 评分 加 权 后 计算 总 分 ,作为 我 的 月 度 绩效 考核 结果 。 

Miss 陈 : 我 们 来 数 一 下 你 的 月 度 考 核 指标 。 嗯 ,你 的 月 度 绩效 考核 
指标 一 共有 17 个 ,每 个 指标 都 评分 的 话 ,就 会 有 17 个 分 数 ,但 是 考核 结 
果 最 终 只 是 1 个 分 数 。 重 点 在 这 里 ,你 注意 到 了 吗 ? 这 个 最 终 的 考核 结 
果 分 数 是 不 是 综合 了 前 面 17 个 指标 分 数 。 

小 曾 : 有 些 明 白 了 ,您 的 意思 是 月 度 绩效 考核 其 实 就 是 一 种 综合 评 
价 ,是 吗 ? 

Miss 陈 : 是 的 。 用 绩效 考核 的 例子 来 讲 就 容易 理解 了 。 考 核 表 中 的 
每 个 指标 都 是 一 个 变量 ,考核 结果 是 综合 了 每 个 指标 的 计算 结果 ,综合 反 
映 了 你 的 月 度 绩效 表现 。 这 种 将 多 个 变量 转换 为 一 个 综合 变量 的 分 析 方 
法 ,就 是 综合 评价 法 ,其 核心 是 将 多 个 指标 转化 为 一 个 能 够 反映 综合 情况 
的 指标 ,从 而 进行 分 析 评价 。 比 如 ,要 衡量 国家 经 济 实力 ` 地 区 社会 发 展 
水 平 、 企 业经 济 效益 等 ,涉及 很 多 因素 ,将 这 些 因素 综合 成 一 个 指标 ,就 要 
运用 综合 评价 法 。 

小 曾 : 这 么 说 来 ,我 最 近 在 网 络 上 看 到 的 最 具 幸 福 感 城市 排名 、 最 适 
宜 旅游 城市 排名 等 ,都 有 具体 的 分 数 ,这 种 排名 分 数 就 是 用 的 综合 评价 
法 吧 ? 

Miss 陈 : 是 的 。 我 们 来 看 看 综合 评价 法 的 分 析 步 又 吧 , 如 图 6-1 
所 示 。 

小 曾 : 看 上 去 综合 评价 法 的 分 析 步 又 很 清晰 ,也 容易 理解 。 但 我 对 
于 其 中 一 些 步骤 不 知道 如 何 操作 ,比如 步骤 1, 该 如 何 确定 指标 体系 呢 ? 
步骤 2, 要 如 何 对 数据 进行 标准 化 处 理 呢 ? 还 有 步骤 3, 怎 么 合理 地 确定 
指标 的 权重 呢 ? 

Miss 陈 : 这 些 问 题 提 得 很 好 ,下 面 我 们 就 按 分 析 步 又 看 看 如 何 运用 
综合 评价 法 。 
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确定 指标 体系 


。 包 含 哪些 Е e 明确 指标 的 
指标 重要 程度 

进行 ° Н 

标准 化 处 理 科学 


计算 综合 分 数 = 


。 根 据 权 重 和 
指标 分 值 计 
算 综合 评价 
分 数 


综合 分 数 排序 


“根据 综合 评 
价 分 数 排序 ， 


并 由 此 得 出 
结论 
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@ 分 析 过 程 


6.3.1 确定 指标 体系 


Miss 陈 : 回 过 来 看 需求 ,看 如 何在 优秀 人 才 评 选中 应 用 综合 评价 法 。 

小 曾 : 好 的 ,要 怎么 人 手 呢 ? 

Miss 陈 : 根据 综合 评价 法 的 分 析 步 骤 , 首 先 我 们 要 确定 指标 体系 。 

小 曾 : 明白 ,就 是 要 确定 用 哪些 指标 来 评价 员工 的 综合 能 力 。 但 是 
要 如 何 确 定 用 哪些 指标 呢 ? 

Miss Ж: 确定 指标 体系 的 方法 有 不 少 呢 , 比 如 问卷 调查 法 、 专 家 访 
谈 法 、 德 尔 菲 法 、. 聚 类 分 析 法 和 主 成 分 分 析 法 等 。 前 三 种 是 比较 常见 的 分 
析 方 法 ,很 多 管理 咨询 公司 都 很 擅长 用 这 些 方法 开展 咨询 项 目 , 姑 且 称 其 
为 咨询 类 方法 ;后 两 种 属于 统计 学 方法 ,要 应 用 统计 学 知识 ,要 收集 数据 
并 用 专业 软件 进行 统计 分 析 , 才 能 计算 出 指标 体系 ,可 称 之 为 统计 类 方 


第 6 章 B TE 3 щш 151 


法 。 如 图 6-2 所 示 。 
确定 指标 体系 的 方法 


统计 类 方法 
GREE EEE (生成 分 分 析 法 


6-2 确定 指标 体系 的 方法 


小 曾 : 我 们 用 过 问卷 调查 法 和 专家 访谈 法 。 

问卷 调查 法 是 通过 发 放 问卷 来 收集 数据 。 这 个 方法 在 工作 中 经 党 使 
用 ,比如 员工 满意 度 调查 就 是 一 种 问卷 调查 法 。 

专家 访谈 法 是 通过 访问 专业 人 士 , 根 据 访谈 内 容 来 确定 指标 体系 。 
我 们 制定 绩效 考核 指标 的 时 候 ,也 用 到 了 这 种 方法 。 

德尔 非法 虽然 用 得 比较 少 ,但 我 学 习 过 这 种 方法 。 德 尔 非法 是 采用 
匿名 方式 征询 专家 小 组 成 员 的 意见 ,经 过 几 轮 征询 ,使 意见 趋 于 集中 ,最 
后 做 出 分 析 结论 的 方法 。 

聚 类 分 析 法 和 主 成 分 分 析 法 我 就 不 太 清楚 了 。 

Miss 陈 : 统计 类 方法 比较 少见 ,用 得 不 多 。 由 于 涉及 统计 学 知识 , 讲 
述 会 花 很 多 时 间 ,我 先 简单 介绍 一 下 。 

D 聚 类 分 析 法 : 是 根据 * 物 以 类 聚 ”的 道理 ,对 数据 或 变量 进行 分 类 
的 一 种 多 元 统计 分 析 方 法 。 

(2) 主 成 分 分 析 法 ， 是 将 多 个 变量 通过 线性 变换 以 选 出 较 少 个 重要 
变量 的 一 种 多 元 统计 分 析 方 法 。 

如 果 我 们 预先 收集 的 指标 很 多 ,有 几 十 甚至 上 百 个 ,多 到 难以 判断 哪 
此 重要、 哪些 不 重要 ,不 知 如 何 筛选 时 ,就 可 以 使 用 聚 类 分 析 法 和 主 成 分 
分 析 法 。 这 类 方法 能 够 将 多 个 指标 进行 降 维 (减少 指标 数量 ), 简 化 为 几 
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个 综合 的 指标 。 如 果 用 统计 类 方法 ,除了 收集 指标 外 ,还 需要 收集 与 指标 
相关 的 数据 ,有 了 数据 才能 进行 统计 分 析 。 这 两 种 方法 都 是 多 元 统计 分 
析 的 方法 ,涉及 统计 学 知识 ,有 兴趣 的 话 你 可 以 查 查 相关 的 资料 。 

小 曾 : 统计 类 方法 方法 感觉 很 科学 ,回头 查找 资料 学 习 一 下 。 

Miss 陈 : 之 前 我 们 通过 问卷 调查 法 和 专家 访谈 法 ,分 析 并 确定 了 员 
工 能 力 评价 的 指标 ,如 图 6-3 所 示 。 


员工 能 力 评价 指标 


(学 历 ) (职称 ) (职业 资格 ) ( 业绩 ) (年 度 考核 ) (获奖 情况 ) 


6-3 ”员工 能 力 评价 指标 


虽然 这 个 评价 指标 体系 简单 了 些 ,许多 指标 都 没有 包括 进去 ,比如 发 
表 论 文 . 申 请 专利 .培训 授课 、 制 度 编写 .流程 改进 .工作 方法 创新 等 ,但 作 
为 讨论 综合 评价 法 的 素材 还 是 可 以 接受 的 。 我 们 就 用 这 套 指标 体系 来 研 
究 如何 通 过 综合 评价 法 进行 员工 综合 能 力 评估 吧 。 

小 曾 : 好 的 。 原 来 还 有 这 么 多 指标 没有 包括 进去 啊 , 以 后 我 会 根据 
您 的 指导 进一步 完善 指标 体系 。 

Miss Ж: 我 们 现 将 指标 体系 转换 为 如 下 公式 ,再 继续 后 面 的 内 容 。 

Q 二 学 历 十 职称 十 职业 资格 十 业绩 十 年 度 考核 十 获奖 情况 
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小 曾 : 按照 分 析 步 又 , 接 下 来 就 要 收集 数据 了 。 

Miss Ж: 是 的 。 由 于 今年 的 选拔 还 没 开 始 ,你 可 以 把 去 年 的 数据 拿 
出 来 试 着 分 析 。 

小 曾 : 去 年 的 数据 在 我 的 电脑 里 ,马上 就 可 以 调 出 来 。 好 了 ,去 年 总 
共有 171 名 候选 人 ,基本 情况 见 表 6-2。 
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633 确定 指标 权重 


Miss 陈 : 有 了 数据 , 接 下 来 我 们 就 要 确定 指标 权重 。 

小 曾 : 经 理 , 我 想 问 一 下 ,为 什么 要 确定 指标 权重 呢 , 每 个 指标 都 取 
相同 权重 不 行 吗 ? 

Miss 陈 : 权重 相同 显得 简单 粗暴 ,因为 每 个 指标 对 人 才 综 合 能 力 的 
影响 程度 是 不 同 的 。 打 个 比方 吧 , 你 觉得 影响 一 部 电影 票房 的 因素 有 
哪些 ? 

小 曾 : 我 经 常 看 电影 ,知道 影响 电影 票房 的 因素 有 导演 演员、 制作 
成 本 宣传 口碑、 档期 НЕА Е. 

Miss Ж: 那么 这 些 因素 对 票房 的 影响 程度 都 是 相同 的 吗 ? 

小 曾 : 在 电影 上 映 前 期 ,导演 、 演 员 、 宣 传 等 因素 的 影响 大 些 ,上 映 中 
后 期 则 口碑 、 排 片 等 因素 的 影响 大 些 。 这 么 说 来 ,每 个 因素 对 票房 的 影响 
程度 都 是 不 同 的 。 

Miss 陈 : 对 , 回 到 我 们 的 问题 上 ,影响 人 才 综 合 能 力 评 估 的 因素 有 
学 历 、 职 称 、 职 业 资 格 、 业 绩 \ 年 度 考核 ,获奖 情况 ,其 实 这 些 因 素 对 人 才 综 
合 能 力 的 影响 也 是 不 同 的 。 我 们 用 这 些 指标 来 衡量 人 才 的 综合 能 力 时 ， 
也 要 考虑 到 这 些 情 况 , 要 尽量 区 分 各 个 指标 对 目标 的 影响 程度 ,这 种 影响 
程度 反映 到 变量 上 就 是 权重 。 

小 曾 : 明白 了 ,但 是 怎么 确定 指标 权重 呢 ? 

Miss 陈 : 确定 指标 权重 的 方法 也 有 好 几 种 ,跟前 面 确定 指标 体系 的 
方法 类 似 , 也 可 以 用 问卷 调查 法 .专家 访谈 法 、 德 尔 菲 法 等 咨询 类 方法 ,也 
可 以 用 聚 类 分 析 、 主 成 分 分 析 等 统计 类 方法 。 还 可 以 用 一 种 比较 简单 的 
量化 统计 方法 , 叫 作 目标 优化 矩阵 。 

小 曾 : 什么 是 目标 优化 矩阵 呢 ? 

Miss 陈 : 目标 优化 矩阵 就 是 把 模糊 思维 简化 为 计算 机 的 1/0 式 逻 辑 
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思维 ,最 后 得 出 量化 结果 的 分 析 方法 。 这 种 方法 不 仅 量化 准确 ,而 且 简 
单 方便 快捷 ,推荐 使 用 。 下 面 我 们 按 步骤 来 看 看 应 该 如 何 使 用 这 种 
方法 。 


1. 建立 矩阵 
根据 指标 体系 建立 可 用 于 两 两 比较 的 交叉 矩阵 , 见 表 6-3, 
表 6-3 ”交叉 矩阵 表 ( 待 比较 ) 


员工 能 力 评价 指标 | 学 历 | 职称 | 职业 资格 | 业绩 | 年 度 考 核 | 获奖 情况 
学 历 
职称 
职业 资格 
业绩 
年 度 考核 
获奖 情况 


2. 对 比 评分 


以 矩阵 行 指标 为 主线 ,依次 与 竖 向 列 指标 进行 对 比 , 根 据 指标 重要 性 
的 对 比 情况 进行 评分 。 比 如 第 一 行 第 一 个 指标 是 学 历 , 那 么 依次 用 学 历 
跟 竖 向 列 的 职称 ` 职 业 资格 `, 业 绩 、 年 度 考核 .获奖 情况 进行 比较 , 若 学 历 
重要 , 则 记 1 分 , 若 不 重要 , 则 记 0 分 。 

小 曾 : 我 试 着 评 一 下 分 数 吧 。 好 了 ,您 看 看 这 样 评分 是 否 正确 ,评分 
结果 见 表 6-4。 

Miss К: 很 好 ,就 是 这 样 评分 。 你 应 该 注意 到 了 ,相同 指标 之 间 不 用 
评分 ,所 以 从 左上 到 右 下 的 对 角 线 用 灰色 做 了 标记 ,以 这 条 对 角 线 为 轴 ， 
上 下 两 个 部 分 对 称 单元 格 的 评分 是 相反 的 。 
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表 6-4 交叉 矩阵 表 ( 已 评分 ) 


员工 能 力 评价 指标 | 学 历 | 职称 | 职业 资格 | 业绩 | 年 度 考核 | 获奖 情况 
学 历 1 1 0 0 0 
职称 0 0 0 0 0 
职业 资格 0 1 0 0 0 
业绩 I 1 1 1 1 
年 度 考核 1 1 1 0 1 
获奖 情况 1 1 0 0 


小 曾 : 明白 ,这样 就 可 以 只 评 上 半 部 分 单元 格 的 分 数 , 下 半 部 分 的 分 
数 可 以 计算 出 来 ,可 避免 在 指标 很 多 的 时 候 出 现 混淆 。 
Miss Ж: 是 的 , 接 下 来 我 们 看 看 如 何 运用 这 些 评分 。 


3. 优化 矩阵 


在 已 经 评分 的 矩阵 最 右边 添加 一 列 , 用 来 计算 指标 合计 分 。 将 每 一 
行 分 数 求 和 , 填 入 该 列 。 整 理 之 后 ,就 可 以 看 到 各 个 指标 的 重要 性 得 分 
了 。 具 体 见 表 6-5。 


表 6-5 ”交叉 矩阵 表 ( 计 算 合计 分 ) 


员工 能 力 评价 指标 | 学 历 | 职称 | 职业 资格 | 业绩 | 年 度 考核 | 获奖 情况 | 合计 
学 历 1 1 0 0 0 2 
职称 0 0 0 0 0 0 
职业 资格 0 1 0 0 0 1 
业绩 1 1 1 1 1 5 
年 度 考核 1 1 1 0 1 4 
获奖 情况 1 1 1 0 0 3 


小 曾 : 有 点 儿 不 对 劲 啊 , 职 称 得 分 为 0, 这 是 说 职称 完全 不 重要 吗 ? 
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Miss К: 你 注意 到 了 这 点 很 不 错 , 在 运用 目标 优化 和 矩阵 进行 评分 的 
时 候 , 的 确 会 遇 到 评分 为 0 的 情况 ,这 时 候 需 对 评分 结果 进行 调整 。 职 称 
相 比 其 他 几 个 要 素 而 言 重要 性 较 低 ,但 也 是 衡量 员工 综合 能 力 一 个 不 可 
或 缺 的 因素 。 所 以 ,我 们 可 以 主动 调整 职称 的 评分 结果 。 由 于 职业 资格 
评分 为 1 已 是 最 低 ,那么 可 以 给 职称 赋值 为 0.5。 修 正 后 的 评分 结果 见 
表 6-6。 


表 6-6 交叉 矩阵 表 ( 修 正 后 ) 


员工 能 力 评价 指标 | 学 历 | 职称 | 职业 资格 | 业绩 | 年 度 考核 | 获奖 情况 | 合计 
学 历 1 1 0 0 0 
职称 0 0 0 0 0 0.5 
职业 资格 0 1 0 0 0 1 
业绩 1 1 1 1 1 5 
年 度 考核 1 1 1 0 1 4 
获奖 情况 1 1 1 0 0 3 
4. 计算 权重 


接 下 来 就 可 以 根据 合计 分 数 计算 权重 了 。 方 法 很 简单 ,用 该 指标 的 
合计 分 除 以 总 合计 分 ,用 百分数 表示 即 可 。 
小 曾 : 我 来 算 算 ,结果 见 表 6-7。 


表 6-7 评价 指标 权重 


员工 能 力 评 价 指标 合计 REN) 
学 历 2 13 
职称 0.5 3 
职业 资格 1 6 
业绩 5 32 
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续 表 
员工 能 力 评价 指标 合计 权重 (%) 
年 度 考 核 4 26 
获奖 情况 3 19 
合计 15.5 100 


Miss 陈 : 根据 计算 结果 ,我 们 更 新 一 下 员工 综合 能 力 评价 公式 。 
Q= 学 历 X13% 十 职称 X3% 十 职业 资格 X6% 十 业绩 X32% 
十 年 度 考核 X26% 十 获奖 情况 X19% 
小 曾 : 公式 更 新 之 后 ,看 上 去 更 科学 了 。 


634 量化 指标 内 容 


小 曾 : 经 理 , 我 们 收集 的 数据 里 面 没有 分 数 啊 , 您 看 “学历 .职称 、 职 
业 资格 业绩、 年度 考 核 .获奖 情况 ”这 些 指标 的 内 容 都 是 文字 性 的 ,怎么 
计算 分 数 呢 ? 

Miss 陈 : 我 们 可 以 将 这 些 文字 内 容 进 行 量化 。 

小 曾 : 量化 ? 

Miss 陈 : 是 的 。 首 先 , 你 有 没有 注意 到 ,有 些 指 标 是 有 等 级 的 。 比 如 
学 历 , 填 报 内 容 包括 中 专 , 大 专 \ 本 科 、 硕 士 研究 生 ,博士 研究 生 ,这 些 内 容 
其 实 是 有 等 级 区 分 的 ,学 历 从 低 到 高 ,有 顺序 。 再 比如 职称 ,填报 内 容 包 
括 初级 职称 .中 级 职称 ,高 级 职称 ,也 有 顺序 。 类 似 的 指标 还 有 职业 资格 、 
年 度 考核 等 。 

小 曾 : 对 啊 , 学 历 、 职 称 、 职 业 资 格 \ 年 度 考 核 这 几 个 指标 都 有 明确 的 
等 级 区 分 。 

Miss 陈 : 这 类 有 明确 等 级 区 分 的 指标 ,可 以 给 每 个 等 级 赋值 ,等 级 
越 高 赋值 越 高 ,通过 赋值 就 将 文字 转换 为 数字 ,实现 了 量化 ,如 图 6-4 
所 示 。 
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SA 


等 级 分 数 转换 


优秀 


3 
K EY > 
称职 1 


64 等 级 分 数 转换 


小 曾 : 哦 ,明白 了 。 不 过 这 种 分 数 转换 方法 对 有 明确 等 级 的 指标 有 
用 ,但 是 对 于 “业绩 、 获 奖 ” 情 况 这 类 没有 明确 等 级 的 指标 又 该 怎么 办 呢 ， 
而 且 这 两 个 指标 的 内 容 很 多 ,很 难 区 分 等 级 。 

Miss 陈 : 这 类 指标 要 特殊 处 理 。 首 先 看 获奖 情况 ,其实 奖励 本 身 是 
有 等 级 的 ,可 以 转换 为 分 数 ,但 还 需要 考虑 到 颁奖 的 单位 也 是 有 等 级 的 。 
所 以 要 结合 这 两 个 维度 ,综合 制定 评分 表 , 才 能 将 获奖 情况 指标 合理 转换 
为 分 数 。 评 分 表 见 表 6-8。 

小 曾 : 原来 这 样 就 可 以 把 获奖 情况 的 内 容 进 行 量化 了 。 经 理 , 如 果 
一 个 人 有 多 次 获奖 情况 ,分 数 可 以 累加 吗 ? 

Miss 陈 : 可 以 累加 。 
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表 6-8 获奖 情况 组 合 评分 表 


授奖 单位 
一 特等 奖 | 一 等 奖 | 二 等 奖 | 三 等 奖 其 他 
行政 级 别 | 公司 级 别 
国家 级 7 6 5 4 3 
省 部 级 总 公司 级 6 5 4 3 2 
地 市 级 ”| 分 公司 级 5 4 3 2 1 
县 乡 级 5 4 a 2 1 


小 曾 : 明白 了 ,按照 这 个 评分 表 来 量化 获奖 情况 指标 ,方便 很 多 啊 。 

Miss 陈 : 最 后 是 业绩 指标 ,这 个 指标 的 量化 比较 复杂 。 我 们 可 以 采 
用 等 级 评定 法 ,制定 一 个 分 数 等 级 。 比 如 采用 10 级 评分 ,10 分 为 业绩 最 
好 ,0 分 为 无 业绩 ,然后 根据 填报 的 业绩 情况 ,由 评分 人 主管 评定 一 个 等 
级 分 数 , 实 现 业绩 指标 的 量化 。 等 级 设 定 表 示 如 下 。 

[weas a ale] eos 5 s mi 

小 曾 : 这 样 评分 的 主观 性 比较 强 啊 ,由 于 每 个 人 的 评价 尺度 不 一 样 ， 
会 导致 有 些 人 评分 高 ,有 些 评分 低 。 

Miss 陈 : 是 的 。 为 了 降低 主观 性 的 影响 ,确保 评分 的 客观 性 ,可 以 组 
建 评 分 专家 小 组 进行 群体 评分 。 小 组 成 员 3 一 5 人 即 可 ,由 市 场 部 、 项 目 
管理 部 的 专家 组 成 。 每 个 成 员 分 别 对 所 有 人 进行 业绩 评分 ,然后 取 评 分 
均值 。 

这 种 方法 可 以 控制 两 个 关键 点 ,一 是 确保 评分 的 专业 性 ,因为 成 员 由 
市 场 部 和 项 目 管理 部 的 专家 组 成 ,可 最 大 限度 确保 其 评定 业绩 时 的 准确 
性 ;二 是 降低 个 人 评分 带 来 的 喜好 偏差 ,就 是 降低 主观 性 对 评分 的 影响 ， 
因为 用 了 群体 评分 的 平均 分 。 

小 曾 : 原来 如 此 。 我 马上 按照 上 述 规则 计算 分 数 ,业绩 评分 找 市 场 
部 和 项 目 管理 部 的 几 个 专家 进行 评定 。 
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(一 周 后 》 
小 曾 : 经 理 ,分 数 已 经 评定 好 了 ,结果 见 表 6-9。 

表 6-9 人 才 综 合 能 力 评分 表 单位 : 分 

ра r 
ИЛЕС муу | 评分 | AA 
1 ЖЕЖ | 下 分 公司 1 3 0 6 96 36 
2 曹 德 胜 | G 分 公司 | 1 2 3 8 98 26 
3 曹 浩 K 分 公司 | 2 2 1 8 98 17 
4 曹 陆 元 | Q 分 公司 | 1 3 1 6 96 6 
5 曾 诗 宇 | 工分 公司 | 1 1 0 7 92 73 
6 曾 学 EE 分 公司 | 2 3 0 Б 95 85 
7 WE ЕЗДЕ | 2 2 8 4 95 34 
8 陈 东 文 | 五 分 公司 | 1 2 0 7 96 193 
9 陈 嘉 莹 | B 分 公司 | 1 1 9 8 96.6 6 
10 | KRE | 理 分 公司 | 2 2 0 7 93 41 

635 分 数 标 准 化 


小 曾 : 经 理 ,现在 可 以 计算 总 分 了 吗 ? 

Miss Ж: 还 不 行 ! 你 观察 一 下 分 数 ,感觉 有 什么 不 对 劲 的 地 方 吗 ? 

小 曾 : 我 看 看 ,好 像 是 有 点 儿 不 对 劲 ,学 历 、 职 称 、 职 业 资格 年 度 考 
核 这 4 个 指标 的 分 数 都 是 1 位 数 ,但 是 业绩 和 获奖 情况 的 分 数 有 2 位 数 
甚至 3 位 数 的 问题 。 

Miss 陈 : 观察 得 很 仔细 ,这 说 明 不 同 的 指标 量 纲 不 同 。 

小 曾 : 有 什么 影响 吗 ? 

Miss Ж: 在 量 纲 不 同 的 情况 下 ,计算 结果 会 向 量 纲 大 的 指标 倾斜 。 
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也 就 是 说 量 纲 大 的 指标 会 获得 更 大 的 权重 ,对 结果 的 影响 更 大 , 量 纲 小 的 
指标 就 显得 微不足道 了 ,对 结果 的 影响 有 限 。 

小 曾 : 那 该 如 何 消除 量 纲 不 同 带 来 的 影响 呢 ? 

Miss 陈 : 既然 量 纲 不 同 ,我 们 就 让 各 个 指标 的 量 纲 都 变 得 相同 吧 。 
让 量 纲 变 得 相同 的 方法 也 有 好 几 种 ,我 们 这 里 采用 将 原始 分 数 转换 为 标 
准 分 的 做 法 (关于 标准 分 的 内 容 请 参阅 本 书 第 4 章 )。 

小 曾 : 对 啊 ,转换 为 标准 分 就 能 够 统一 量 纲 ,您 上 次 讲 过 呢 。 那 我 再 
计算 一 次 ,将 原始 分 数 转换 为 标准 差 为 10 ,均值 为 100 的 标准 工分 数 , 结 
果 见 表 6-10。 

表 6-10 人才 综合 能 力 评分 表 (T 分 数 ) 
т? Т) 职业 | 工 年 度 考 | 工业 绩 | TRK 
评分 | 评分 | 资格 评分 | 核 评分 | 评分 | 情况 评分 
1 | Ж | ESAF | 91. 04 |110.02| 90.35 95.03 99.78 | 102.04 
2 | 曹 德 胜 | G 分 公司 | 91.04 | 94. 72 | 100.56 108. 74 102. 38 | 99. 46 
3 | Wi# K 分 公司 |109. 73 | 94.72 | 93.75 108. 74 102. 38 | 97. 13 


序号 | 姓 名 | 所 在 单位 


4 | 曹 陆 元 | Q 分 公司 | 91.04 |110.02| 93.75 95.03 99.78 | 94.29 
5 | 曾 诗 宇 | 工分 公司 | 91.04 | 79. 42 | 90.35 101.88 | 94.58 | 111.61 
6 | 曾 学 | 下 分 公司 |109.73|110.02| 90.35 88.18 | 98.48 | 114.71 


т | 曾 烨 Ея] |109.73| 94. 72 | 117.58 81. 33 98. 48 | 101. 53 


8 | 陈 东 文 | HAAF | 91.04 | 94.72 | 90. 35 101. 88 99.78 | 142. 63 


9 | KRÆ | B 分 公司 | 91.04 | 79. 42 | 120.98 | 108.74 | 100.56 | 94. 29 


10 | 陈 俊 强 | H 分 公司 |109. 73| 94.72 | 90. 35 101. 88 95. 88 | 103. 34 


转换 标准 分 的 R 语句 如 下 : 


d<-read.csv ("第 六 章 / 人 才 评 价 .csv") # 读 取 数 据 
dl<-scale(d[,16:21]) * 10+100 # 转 换 为 标准 分 
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write.csv (dl, "第 六 章 / 标 准 分 转换 .csv") 


# 输 出 转换 分 数 


Miss 陈 : 很 好 ,经 过 标准 分 转换 之 后 ,各 个 指标 的 量 纲 就 统一 了 , 量 

纲 不 同 的 影响 也 消除 了 ,这 时 就 可 以 计算 总 分 了 。 好 了 ,现在 再 次 修正 一 
下 前 面 的 公式 ,这 里 用 工 表示 标准 分 数 。 修 正 后 的 计算 公式 如 下 : 
Q= Ty5 X13% Ту X 3⁄4 + Tanam X 6%⁄ + Tua X 32 % 

+ Tiga X 26 %6 + Tasa X19% 


636 ”综合 分 数 排序 


小 曾 : 经 理 , 经 过 权重 分 配 、 指 标量 化 、 标 准 分 数 转换 后 ,后 面 的 工作 
就 轻松 多 了 ,只 需要 按 权重 计算 总 分 就 行 了 。 

Miss Ж: 是 的 ,你 来 计算 一 下 吧 。 

小 曾 : 好 的 ,计算 完毕 ,结果 见 表 6-11。 


综合 评分 总 分 

序号 姓 名 所 在 单位 总 分 (分 ) 
1 华海 珠 ЕЗД И 96. 58 
2 曹 德 胜 G 分 公司 100. 64 
3 曹 浩 K 分 公司 102.22 
1 曹 陆 元 Q 分 公司 95. 31 
5 МР 工分 公司 97. 60 
6 曾 学 ЕЗД И 99. 22 
7 曾 烨 E 分 公司 96. 11 
8 陈 东 文 H 分 公司 105. 62 
9 KEE BHAR 99. 84 
10 陈 俊 强 H 分 公司 99. 33 


第 6 章 B T£ fi ms 167 


Miss 陈 : 根据 我 们 对 人 才 综 合 能 力 评估 的 指标 体系 ,经 过 对 指标 的 
权重 计算 ,指标 量化 以 及 标准 分 转换 ,最 后 计算 出 总 分 。 总 分 代表 了 人 才 
综合 能 力 , 总 分 之 间 的 差异 反映 了 人 才 综 合 能 力 之 间 的 差异 。 根 据 总 分 
进行 排序 ,分 数 由 高 到 低 ,直观 反映 了 人 才 综 合 能 力 的 高 低 , 由 于 进行 了 
量化 ,人 才 综 合 能 力 之 间 的 细微 差别 也 能 体现 出 来 。 计 算 结果 能 够 给 我 
们 提供 评价 和 选拔 人 才 极为 有 用 的 、 说 服 力 强 的 信息 。 

小 曾 : 是 的 。 人 才 的 综合 能 力 被 量化 了 ,相互 之 间 的 比较 也 变 得 容 
易 了 。 


@) 结果 应 用 


Miss Ж: 不 过 在 实际 应 用 中 ,还 需要 注意 以 下 两 点 。 


1. 不 唯 分 数 


小 曾 : 好 不 容易 将 员工 的 能 力 进行 了 量化 ,分 数 代表 了 员工 综合 能 
力 的 高 低 ,我 觉得 很 客观 公正 啊 ,为 啥 说 要 不 唯 分 数 呢 ? 

Miss Ж: 你 回想 一 下 量化 过 程 ,虽然 我 们 把 对 指标 的 主观 评价 转换 
为 了 数字 ,但 转换 过 程 是 会 产生 误差 的 。 即 使 我 们 用 了 降低 误差 的 技术 ， 
比如 用 群体 评分 取 均 值 ,但 仍然 不 能 避免 误差 的 存在 。 如 果 两 个 人 的 综 
合 评分 很 接近 ,那么 将 很 难 证 明 分 数 的 差异 不 是 因为 误差 造成 的 。 

小 曾 : 原来 是 这 样 。 

Miss 陈 : 员工 在 填报 个 人 资料 的 时 候 也 可 能 出 现 误差 。 比 如 ,有 些 
员工 实际 是 很 优秀 的 ,但 因为 工作 忙碌 ,填报 个 人 资料 的 时 候 内 容 过 于 简 
单 , 导 致 评 分 时 分 数 偏 低 , 脱 离 了 实际 情况 。 而 有 些 员 工 工作 比较 闲 , 时 
间 多 ,所 以 填报 个 人 资料 的 时 候 就 写 了 很 多 内 容 , 这 样 评分 时 分 数 偏 高 的 
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可 能 性 大 。 这 些 情况 都 有 可 能 导致 综合 评分 与 实际 情况 不 符 。 
小 曾 : 这 些 情况 我 们 很 难 控制 ,我 们 该 怎么 运用 综合 评价 分 数 呢 ? 
Miss 陈 : 建议 把 分 数 作为 参考 数据 ,再 组 织 评审 委员 会 进行 评审 ， 
对 个 别 有 争 议 的 员工 ,补充 收集 相关 资料 ,对 综合 评价 结果 进行 矫正 。 
小 曾 : 明白 了 。 


2. 员工 能 力 评 价 指标 体系 还 需要 优化 完善 


Miss 陈 : 之 前 提 到 过 ,我 们 的 员工 能 力 评价 指标 体系 还 不 够 完善 ， 
有 许多 反映 员工 能 力 和 价值 的 因素 还 没有 纳入 指标 体系 ,这 样 会 造成 评 
价 结 果 不 够 全 面 。 

小 曾 : 好 的 , 接 下 来 我 会 按照 综合 评价 法 的 要 求 ,进一步 完善 指标 体 
系 , 更 全 面 评估 人 才 的 综合 能 力 ,选拔 出 真正 符合 公司 需求 的 优秀 人 才 o 
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员工 离职 倾向 分 析 


导语 : 员工 离职 会 给 企业 带 来 损失 ,如 果 在 员工 入 职 前 
就 能 够 预测 该 员工 在 一 定时 间 段 内 的 离职 概率 ,将 极 大 提高 
企业 的 招聘 成 功率 ,降低 招聘 成 本 。 本 章 以 招聘 应 届 大 学 生 
为 例 , 介 绍 如 何 用 机 器 学 习 算法 ,根据 招聘 测评 数据 和 学 生 
信息 建立 预测 模型 ,用 模型 预测 新 招聘 大 学 生 在 入 职 一 年 内 
的 离职 倾向 。 
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а 需求 描述 


小 肖 : 经 理 , 我 们 公司 这 几 年 招聘 的 应 届 大 学 生 员 工 流 失 率 比 较 高 
啊 。 我 统计 了 一 下 相关 数据 ,应 届 毕 业 生 入 职 三 年 内 的 流失 率 都 达到 
50% 了 。 

Miss 陈 : 调查 离职 原因 了 吗 ? 

小 肖 : 是 的 。 我 对 一 些 分 公司 做 了 调查 ,总 结 了 一 下 大 学 生 离 职 的 
原因 ,主要 有 以 下 几 点 。 


(1) 认 知 偏差 。 这 类 大 学 生 对 公司 以 及 工作 的 心理 预期 与 现实 环境 
落差 较 大 ,进入 公司 后 发 现 跟 之 前 蛋 慨 的 不 一 样 ,差别 很 大 。 这 类 大 学 生 
一 般 在 入 职 后 两 三 周 就 缮 职 了 ,还 没 过 试用 期 呢 。 

(2) 适应 性 差 。 这 类 大 学 生 不 太 适 应 周边 环境 ,对 气候 、 文 化 语言 
等 环境 都 不 适应 ,出 现 适应 困难 症 。 一 般 离职 后 都 回 到 老家 去 了 , 回 到 他 
们 熟悉 的 环境 中 。 

(3) 追求 高 薪资 福利 。 这 类 大 学 生 进 公司 只 是 找 个 落脚 点 ,安定 后 
马上 找 薪 酬 福利 更 高 的 公司 ,或 者 开 网 店 自主 创业 。 

(4) 内 部 管理 原因 。 这 类 大 学 生 或 者 与 直接 主管 发 生 矛盾 ,或 者 对 
公司 的 管理 制度 不 认可 ,或 者 对 企业 的 文化 不 认可 ,由 于 公司 内 部 管理 原 
因而 产生 离职 行为 。 


Miss Ж: 这 么 看 来 应 届 大 学 生 离 职 既 有 内 部 原因 ,也 有 外 部 原因 ， 
既 有 个 人 原因 也 有 企业 原因 。 既 然 找到 了 原因 ,我 们 就 可 以 针对 这 些 问 
题 去 改善 。 比 如 内 部 管理 原因 ,如 果 是 主管 问题 ,制度 问题 ` 企 业 文化 问 
题 , 可 以 分 析 具 体 问 题 , 制 订 解 决 方案 。 
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另外 ,我 们 也 可 以 在 招聘 的 时 候 , 预测 大 学 生 在 人 职 后 的 离职 概率 ， 
提前 判断 他 们 是 否 会 在 一 年 内 离职 ,作为 招聘 的 参考 依据 ,从 而 改善 离职 
现象 。 

小 肖 : 经 理 , 您 说 在 招聘 的 时 候 就 预测 大 学 生 在 人 职 后 的 离职 概率 ? 
这 不 太 可 能 吧 。 

Miss 陈 : 用 数据 分 析 的 方法 ,这 是 可 以 实现 的 。 不 过 要 实现 预测 ,我 
们 需要 收集 一 些 历史 数据 ,包括 以 下 几 方 面 。 

(1) 近年 招聘 的 应 届 毕 业 生 招聘 时 的 综合 素质 测评 分 数 。 

(2) 近年 招聘 的 应 届 毕 业 生 的 个 人 基本 资料 。 

(3) 应 届 毕 业 生 入 职 后 一 年 内 的 离职 情况 。 

小 肖 : 这 些 数据 都 保留 了 ,不 过 ,具体 要 收集 几 年 的 数据 呢 ? 

Miss 陈 : 年 份 越 长 越 好 。 

小 肖 : 好 的 ,我 马上 去 收集 和 整理 数据 。 


@ 案例 分 析 


7.2.1 数据 准备 


小 肖 : 经 理 ,数据 准备 得 差不多 了 。 我 收集 了 2009—2012 年 公司 招 
聘 的 应 届 毕 业 生 员工 的 数据 ,包括 个 人 资料 、 综 合 测评 分 数 、 是 否 在 一 年 
内 离职 等 ,共有 1459 人 。 具 体 包括 以 下 信息 : 


[11 "序号 " "а" "性 别 " 
[4] "工作 单位 " "工作 单位 类 别 " "入职 年 份 " 
[7] "学 历 " "毕业 院 校 " "专业 " 


[10] "职称 " "职业 资格 " "是 否 党 员 " 
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[13] "言语 理解 ” eE" "gg" 
[16] "常识 " "成 就 导向 " " 抗 压 能 力 " 
[19] "灵活 性 " "影响 性 " "支配 性 " 

[22] "外 向 性 " "社交 能 力 " "心理 感受 性 " 
[25] "创新 " "敬业 " "情绪 稳定 性 " 
[28] "严谨 性 " "完美 主义 倾向 " "录用 时 岗位 级 别 " 


[31] "是 否 有 晋升 " "是 否 一 年 内 离职 " 


其 中 个 人 资料 包括 "姓名 .性 别 、 工 作 单位 ,人 职 年 份 .学 历 . 毕 业 院 
Ж 专业、 职称 ` 职 业 资格 .是 否 党 员 、 录 用 时 岗位 级 别 . 是 否 有 晋升 ?等 。 

综合 测评 分 数 是 我 们 在 招聘 应 届 大 学 生 时 ,两 套 测评 问卷 的 分 数 。 
一 套 是 胜任 力 测评 ,包括 “ 抗 压 能 力 、 外 向 性 、 社 交 能 力 、 心 理 感 受 性 、 创 
新 、 敬 业 、 情 绪 稳 定性 、 严 并 性 、 完 美 主义 倾向 ”等 指标 ; 另 一 套 是 基本 素质 
测评 ,包括 “言语 理解 数学、 逻辑 、 常 识 、 成 就 导向 ”等 指标 。 

离职 数据 是 入 职 一 年 后 的 离职 情况 ,0 表示 在 职 ,1 表示 已 经 离职 。 
部 分 数据 见 表 7-1。 

Miss 陈 : 很 好 ,你 的 数据 准备 得 很 充分 , 接 下 来 我 们 就 可 以 进行 分 
析 了 。 


722 数据 分 析 结果 与 解释 


小 肖 : 要 怎么 进行 分 析 呢 ? 

Miss 陈 : 作为 比较 ,我 们 用 两 种 算法 来 进行 分 析 , 分 别 是 Boosting 
算法 和 随机 森林 算法 。 在 使 用 这 两 个 算法 之 前 ,我 们 先 看 看 预测 效果 。 

我 根据 你 提供 的 数据 ,以 “是 否 一 年 内 离职 ”为 因 变 量 ,其 余 的 因素 为 
自 变 量 ,用 Boosting 和 随机 森林 算法 建立 了 两 个 算法 模型 。 有 了 这 两 个 
算法 模型 ,就 可 以 进行 预测 。 

小 肖 : 怎么 预测 呢 ? 
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Miss 陈 : 将 新 的 应 届 毕 业 生 数 据 , 带 入 模型 中 进行 运算 ,就 可 以 得 
到 预测 结果 。 这 类 似 于 之 前 我 们 讲 到 的 用 回归 分 析 模 型 预测 员工 人 数 。 

小 肖 : 现在 还 没有 新 的 应 届 毕 业 生 数据 ,可 以 在 旧 数 据 中 随机 找 一 
个 人 的 数据 进行 计算 吗 ? 

Miss 陈 : 可 以 。 

小 肖 : 那 我 随机 找 一 个 吧 ,数据 见 表 7-2, 

Miss Ж: 好 ,就 用 这 名 员工 的 数据 。 现 在 我 将 他 的 数据 分 别 代 入 两 
个 模型 中 进行 “预测 ”, 结 果 如 下 。 


1. Boosting 模型 
“预测 ?结果 : 


$formula 


是 否 一 年 内 离职 ~. 


$votes 
1,1] 1,2] 
[1,] 24.497 85 31.566 52 


$ргор 
9! 1,21 
[1,] 0.436 959 4 0.563 040 6 


$class 


[1] "离职 " 


$confusion 
Observed Class 
Predicted Class 在 职 离职 
离职 0 0 

上 面 是 Boosting 算法 模型 给 出 的 “预测 ?结果 ,结果 显示 : 该 员工 不 
会 离职 的 概率 为 0.436 959 4, 离 职 的 概率 为 0.563 040 6 ,离职 概率 之 0. 5， 
总 体 判 断 结果 是 “离职 ”。 印 证 一 下 ,实际 上 我 们 看 到 该 员工 的 确 在 一 年 
内 离职 了 ,计算 结果 符合 实际 情况 。 
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2. 随机 森林 模型 
“预测 ”结果 : 


在 职 离职 
0.22 0.78 
attr(,"class”) 


[1] "matrix" "votes" 


离职 

Levels :在 职 离职 

上 面 是 随机 森林 算法 模型 给 出 的 “预测 ?结果 ,与 Boosting 模型 “ 预 
测 ” 的 结果 类 似 。 结 果 显 示 , 该 员工 一 年 内 在 职 的 概率 为 0. 22, 离 职 的 概 
率 为 0.78, 总 体 判 断 结果 仍然 是 “离职 ”, 计 算 结果 符合 实际 情况 。 

Miss Ж. 看 到 了 吗 ,两 个 模型 “预测 ”的 结果 一 致 ,都 与 实际 情况 相符 。 

小 肖 : 太 令 人 惊奇 了 ,竟然 能 够 这 么 准确 地 预测 出 还 未 招聘 的 人 员 
在 人 职 后 一 年 内 的 离职 情况 。 如 果实 际 招聘 时 能 用 其 中 一 个 模型 进行 预 
测 的 话 ,就 能 大 大 降低 新 员工 在 一 年 内 的 离职 概率 ,这 真是 令 人 激动 啊 。 

Miss Ж: 是 的 。 通 过 建立 这 种 算法 模型 ,在 实际 招聘 工作 中 应 用 ,就 
能 提高 我 们 招聘 工作 的 精准 度 。 我 们 还 可 以 根据 每 年 的 实际 情况 ,更 新 
数据 ,不 断 优化 模型 ,提高 预测 精度 。 

小 肖 : 经 理 , 为 什么 要 用 两 种 算法 来 进行 分 析 呢 ? 

Miss 陈 : 用 两 种 算法 可 以 相互 印证 ,相互 比较 ,看 看 哪 种 效果 好 。 实 
际 应 用 时 ,可 选择 准确 率 较 高 的 算法 。 

小 肖 : 您 用 的 Boosting 模型 和 随机 森林 模型 这 两 种 算法 有 什么 特 
点 呢 ? 

Miss Кк: 相 比 传统 的 回归 分 析 、 logistics 回归 、 决 策 树 等 算法 ， 
Boosting 模型 和 随机 森林 模型 这 两 种 算法 具有 更 高 的 预测 精度 ,更 好 的 
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自 变 量 容许 度 , 不 需要 自 变量 是 数值 型 ,也 不 需要 检验 自 变量 之 间 的 多 重 
共 线 性 等 问题 ,还 能 有 效 避 免 过 度 拟 合 的 现象 。 

小 肖 : 统计 术语 有 点 多 啊 , 听 不 懂 了 。 

Miss Ж. 没关系 ,统计 术语 和 原理 不 一 定 要 搞 得 很 清楚 。 咱 们 是 坚 
持 拿 来 主义 ,大 概 了 解 就 行 ,能 用 就 行 。 

小 肖 : 好 的 。 这 两 个 模型 给 人 的 感觉 挺 抽象 的 ,有 具体 形式 吗 ? 有 
没有 计算 公式 ? 

Miss 陈 : 这 两 个 模型 的 确 是 比较 复杂 和 抽象 ,在 刚才 的 计算 过 程 
中 ,模型 存 人 了 两 个 变量 中 ,不 太 方便 地 展示 模型 的 特征 ,如 果 你 有 兴趣 
可 以 看 看 R 语言 中 的 分 析 代码 。 

你 有 没有 想 过 ,刚才 的 模型 中 ,我 们 用 了 很 多 自 变量 参加 分 析 , 这 些 
自 变 量 的 重要 性 都 是 相同 的 吗 ? 有 没有 混入 无 关 紧 要 的 自 变量 ? 哪些 自 
变量 才 是 重要 的 呢 ? 

小 肖 : 是 啊 , 这 么 多 自 变 量 参与 了 分 析 , 论 重要 性 就 重 熟 轻 呢 ? 经 
理 , 是 不 是 要 像 回 归 分 析 那 样 ,对 自 变量 进行 筛选 ,去 掉 无 关 自 变量 呢 ? 

Miss Ж: 其 实 这 两 种 算法 都 不 需要 像 回归 分 析 那 样 筛选 变量 。 和 
传统 的 回归 分 析 不 同 , 这 两 种 算法 属于 机 器 学 习 范 畴 ,是 分 类 算法 中 比较 
新 的 算法 ,具有 很 多 优点 。 比 如 ,这 类 算法 不 需要 筛选 自 变量 , 自 变量 可 
以 多 达 几 千 个 ,并 且 算 法 模型 还 能 给 出 各 个 自 变量 的 重要 性 。 咱 们 分 别 
来 看 看 这 两 种 算法 模型 计算 的 自 变量 重要 程度 。 


1. 基于 Boosting 算法 模型 对 各 自 变量 重要 性 的 分 析 


基于 Boosting 算法 模型 对 各 自 变量 重要 性 的 分 析 如 图 7-1 所 示 。 

图 中 横 条 长 短 代表 该 变量 对 “是 否 一 年 内 离职 "这 个 因 变量 影 响 的 重 
要 程度 ,条 形 越 长 表示 重要 性 越 高 。 可 以 看 出 ,专业 、 毕 业 院 校 .工作 单位 
这 三 个 变量 是 影响 员工 稳定 性 的 重要 因素 。 
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7-1 各 因素 对 预测 离职 行为 的 重要 性 排序 (基于 Boosting 模型 ) 
2. 基于 随机 森林 模型 对 各 自 变量 重要 性 的 分 析 


基于 随机 森林 模型 对 各 自 变量 重要 性 的 分 析 如 图 7-2 所 示 。 
图 7-2 中 ,左边 的 图 形 是 根据 MeanDecreaseAccuracy 来 判断 自 变 量 


的 重要 程度 。MeanDecreaseAccuracy 是 衡量 指标 ,衡量 把 一 个 变量 的 取 
值 变 为 随机 数 , 随 机 森林 模型 预测 准确 性 降低 的 程度 。 数 字 越 大 表示 该 
变量 的 重要 性 越 大 。 根 据 这 个 指标 ,是 否 晋 升 、 工 作 单位 、 工 作 单位 类 别 
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7-2 各 因素 对 预测 离职 行为 的 重要 性 排序 (基于 随机 森林 模型 ) 


三 个 变量 是 影响 员工 一 年 内 稳定 性 的 主要 因素 。 

右边 的 图 形 是 根据 MeanDecreaseGini 指数 计算 出 的 每 个 变量 对 分 
类 树 每 个 节点 观测 值 异 质 性 的 影响 程度 ,从 而 反映 变量 的 重要 性 。 该 值 
越 大 表示 该 变量 的 重要 性 越 大 。 根 据 这 个 指标 ,工作 单位 、 毕 业 院 校 地 
区 、 逻 辑 分 析 能 力 等 变量 是 影响 员工 一 年 内 稳定 性 的 主要 因素 。 

小 肖 : 喷 ,每 种 方法 分 析出 来 的 变量 重要 性 不 大 一 样 啊 。 

Miss 陈 : 是 的 ,因为 每 种 算法 的 原理 和 计算 方式 不 同 ,判断 变量 重 
要 性 的 策略 不 同 , 所 以 会 出 现 这 种 情况 。 具 体 应 用 时 ,可 以 实际 使 用 的 算 


法 为 准 判 断 变量 的 重要 性 。 
小 肖 : 总 体 来 看 ,这 真是 令 人 惊讶 的 数据 分 析 技 术 ,它们 竟然 可 以 预 


182 四 是 大 数据 时 代 的 人 力 资源 管理 
知 未 来 。 那 么 这 两 种 算法 工作 的 原理 究竟 是 什么 ,要 如 何 才 能 用 它们 开 


展 分 析 工 作 呢 ? 
Miss 陈 : 不 急 , 接 下 来 就 说 说 分 析 方 法 和 分 析 过 程 。 


[7.31 分 析 方法 


7.3.1 Boosting 算法 


Miss 陈 : 先 说 Boosting 算法 。 该 算法 是 为 解决 弱 分 类 算法 准确 度 
不 高 的 问题 而 提出 的 ,从 提出 到 现在 ,经 历 了 好 几 个 阶段 。 我 们 这 里 用 的 
是 当前 普遍 采用 的 Adaboost( Adaptive Boosting 的 简写 ) 算 法 ,可 以 翻译 
为 自 适应 助 推 器 算法 。 这 种 算法 是 一 种 迭代 式 的 组 合算 法 ,目的 是 在 不 
增加 原始 数据 的 情况 下 提高 基础 分 类 器 的 准确 度 ,而 我 们 在 模型 中 用 的 
基础 分 类 器 是 决策 树 。 

小 肖 : 哦 ,就 是 说 Boosting 算法 基于 决策 树 , 但 采用 了 某 种 方法 提高 
了 预测 精度 。 那 决策 树 又 是 什么 呢 ? 

Miss 陈 : 决策 树 也 是 一 种 分 类 算法 ,是 “在 已 知 各 种 情况 发 生 概率 
的 基础 上 ,通过 构成 决策 树 来 求 取 净 现 值 的 期 望 值 大 于 等 于 零 的 概率 , 评 
价 项 目 风险 ,判断 其 可 行 性 的 决策 分 析 方法 ,是 直观 运用 概率 分 析 的 一 种 
图 解法 。 由 于 这 种 决策 分 支 画 成 的 图 形 很 像 一 棵 树 的 枝 干 ,所 以 形象 地 
称 之 为 决策 树 。 在 机 器 学 习 中 ,决策 树 是 一 个 预测 模型 , 它 代表 的 是 对 象 
属性 与 对 象 值 之 间 的 一 种 映射 关系 ”。? 

小 肖 : 那 为 什么 不 直接 用 决策 树 算法 来 预测 呢 ? 


© 引用 自 百度 百科 。 
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Miss 陈 : 当然 可 以 用 决策 树 算法 来 预测 。 刚 才 你 也 提 到 了 ,决策 树 
算法 预测 的 误 判 率 较 高 ,准确 率 没有 Boosting 算法 高 。 所 以 ,我 们 在 选 
择 算法 的 时 候 ,自然 希望 预测 得 越 准 确 越 好 ,是 吧 ? 

小 肖 : 是 的 。 

Miss Ж: Boosting 算法 实际 上 是 决策 树 的 加 强 版 本 。 决 策 树 就 是 弱 
分 类 器 ,而 通过 Boosting 算法 ,开始 可 能 较 弱 (出 错 率 高 ) ,然而 随 着 迭代 
的 进行 ,不 断 地 通过 自助 法 (Booststrap) 加 权 再 抽样 ,根据 产生 的 新 样本 
来 改进 分 类 器 ,每 次 迭代 时 都 针对 分 类 器 对 某 些 观测 值 的 误 判 缺陷 加 以 
修正 ,每 次 迭代 都 根据 这 一 轮 产 生 的 分 类 结果 给 出 错误 率 , 最 终结 果 由 各 
个 阶段 的 分 类 器 每 轮 错误 率 加 权 ( 权 重 是 用 来 惩罚 错误 率 高 的 分 类 器 ) 投 
票 产生 ,这 就 是 所 谓 “ 自 适应 ”的 特点 。 

小 肖 : 通过 自身 迭代 提升 准确 度 的 思路 真 奇妙 啊 , 感 觉 挺 像 人 工 知 
能 ,迭代 加 强 后 的 预测 效果 有 明显 提升 吗 ? 

Miss Ж: 是 的 ,效果 很 好 。Boosting 算法 预测 准确 率 相当 高 。 比 如 ， 
我 们 刚才 对 应 届 大 学 生 离 职 行为 的 预测 ,以 全 部 原始 数据 来 做 预测 的 话 ， 
误 判 率 为 0, 全 部 能 准确 预测 。 

小 肖 : 真 厉害 啊 ! 那 这 种 算法 有 什么 优 、 缺 点 呢 ? 

Miss 陈 : Boosting 算法 的 优点 是 预测 准确 率 高 ,能够 避免 回归 分 析 
中 的 过 度 拟 合 现象 ,对 自 变 量 的 类 型 和 数量 不 挑剔 ,缺点 是 可 能 会 被 一 些 
奇异 点 或 者 是 离 群 点 所 影响 。 当 然 我 们 在 实际 应 用 的 时 候 , 还 需要 不 断 
地 完善 和 优化 模型 ,添加 更 多 的 数据 到 模型 中 去 优化 模型 ,让 模型 更 
健壮 。 

小 肖 : 经 理 ,您 多 次 提 到 分 类 器 这 个 词 , 分 类 器 又 指 什么 呢 ? 

Miss Ж: 这 是 分 类 算法 的 一 种 叫 法 。 比 如 “是 否 在 一 年 内 离职 ”这 个 
变量 ,包括 两 种 类 别 : 在 职 、 离 职 。 我 们 在 数据 中 用 0 和 1 来 代表 ,这 个 
变量 就 是 一 个 分 类 变量 。 以 这 个 分 类 变量 为 因 变量 进行 回归 分 析 、 判 别 
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分 析 等 ,这 个 过 程 就 叫 作 类 别 分 析 , 所 用 到 的 算法 就 是 分 类 算法 ,也 叫 作 
分 类 器 。 

小 肖 : 原来 如 此 。 

Miss 陈 : 分 类 算法 的 应 用 很 广泛 。 一 场 足球 比赛 的 结果 是 赢 或 输 ， 
一 部 电影 的 票房 是 高 或 低 , 一 个 顾客 在 超市 中 对 某 种 产品 买 或 不 买 ,都 涉 
及 类 别 问题 ,可 以 用 分 类 算法 进行 分 析 。 

小 肖 : 看 来 分 类 算法 的 应 用 真 挺 广泛 。 


732 ”随机 森林 算法 


小 肖 : 那 随机 森林 算法 也 是 一 种 分 类 器 吗 ? 也 是 通过 某 种 方法 将 弱 
分 类 器 变 为 强 分 类 器 的 分 类 算法 吗 ? 

Miss 陈 : 是 的 。 随 机 森林 算法 和 Boosting 算法 有 类 似 之 处 ,都 是 通 
过 某 种 方式 增强 分 类 效果 。 不 同 的 是 随机 森林 算法 用 了 一 种 比较 有 意思 
的 方法 来 进行 自助 抽样 分 类 ,这 从 算法 的 名 称 可 以 宁 知 一 二 。 

小 肖 : 是 指 “ 随 机 森林 ”这 个 名 称 吗 ? 

Miss 陈 : 是 的 。 随 机 森林 也 是 以 决策 树 作为 基础 分 类 器 进行 加 强 
运算 的 ,其 中 “随机 ”是 指 生 成 的 决策 树 每 个 节点 的 变量 仅仅 在 随机 选 出 
的 少数 变量 中 产生 ,每 棵 决策 树 所 依据 的 数据 都 是 随机 的 , 连 每 个 节点 的 
产生 都 是 随机 性 的 。“ 森 林 ” 是 指 通 过 前 述 的 随机 方式 生成 了 大 量 的 决策 
树 ,这 些 决 策 树 连 起 来 就 像 是 一 片 森林 。 这 就 是 随机 森林 算法 名 称 的 由 
来 。Boosting 算法 在 R 语言 中 可 默认 生成 50 棵 决策 树 , 而 随机 森林 则 可 
默认 生成 500 棵 决策 树 ,是 不 是 名 副 其 实 的 森林 呢 ? 

小 肖 : 原来 如 此 ,随机 森林 这 个 称呼 很 形象 。 那 么 这 个 算法 有 什么 
优 、 缺 点 呢 ? 

Miss 陈 : 优点 和 Boosting 算法 类 似 ,分 类 精确 度 高 .没有 过 度 拟 合 
的 问题 .对 自 变量 类 型 容许 度 也 高 。 对 大 数据 ,特别 是 自 变量 多 的 数据 很 
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有 效率 , 自 变量 其 至 可 以 多 达 几 千 个 , 皆 可 以 轻松 应 对 ,而 且 通 过 随机 森 
林 算 法 能 找到 重要 变量 。 

小 肖 : 看 来 随机 森林 是 很 优秀 的 算法 。 

Miss 陈 : 是 的 。Boosting 和 随机 森林 都 是 机 器 学 习 类 算法 ,发 展 历 
史 不 过 二 三 十 年 。 得 益 于 不 断 进 步 的 计算 机 技术 ,也 得 益 于 不 断 发 展 和 
普及 的 人 语言 ,让 我 们 普通 人 也 能 够 使 用 这 些 先 进 的 算法 来 解决 实际 管 
理工 作 中 遇 到 的 问题 ,帮助 我 们 提升 管理 水 平 。 

小 肖 : 能 用 上 这 些 算 法 真是 太 好 了 ,那么 实际 的 分 析 过 程 是 怎样 
的 呢 ? 

Miss Ж: 下 面 我 们 来 看 看 分 析 过 程 。 


7.41 建 模 


Miss 陈 : 首先 ,咱们 要 根据 现 有 的 数据 建立 算法 模型 。 以 “是 否 一 年 
内 离职 ”为 因 变量 ,其 余 的 维度 为 自 变量 ,分 别 建立 Boosting 和 随机 森林 
的 模型 。 


1. 建立 Boosting 模型 


下 面 的 R 语句 将 读 取 数据 ,并 用 Boosting 算法 建立 模型 ,存储 到 变 
Жтт, 


library (adabag) #Boosting 包 

# 读 取 数 据 
d<-read.csv ("第 七 章 /毕业 生 数 据 1.csv") 
d<-d[,3:32] 
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аг, "是 否 一 年 内 离职 "]<-factor (di, "是 否 一 年 内 离职 "] ) 
levels (d[, "是 否 一 年 内 离职 "])<-1ist (在 职 = 0, 离 职 = 1) 
# 建 立 Boosting 模型 

set.seed(4410) 

m<-Boosting (是 否 一 年 内 离职 ~ .,d) + уу} 


2. 建立 随机 森林 模型 


随机 森林 算法 对 数据 的 要 求 要 稍微 严格 些 。 对 因子 类 的 变量 ,也 就 
是 分 类 变量 ,要 求 不 能 超过 53 个 类 别 , 否 则 不 能 进行 建 模 。 所 以 在 进行 
随机 森林 的 建 模 时 ,需要 将 原始 数据 中 类 别 超过 53 个 的 变量 进行 转换 ， 
这 涉及 “毕业 院 校 "和 “专业 ”这 两 个 变量 。 我 进行 了 归 类 转换 ,“ 毕 业 院 
校 ? 按 学 校 所 处 省 份 归 类 转换 ， 专 业 ? 按 学 科 分 类 。 

下 面 的 R 语句 将 读 取 数据 ,并 建立 随机 森林 模型 ,存储 到 变量 
m Po 

library (randomForest) # 随 机 森林 包 

# 读 取 数 据 ( 对 水 平 超过 53 的 变量 进行 整理 , 归 类 降低 水 平 数量 ,比如 毕业 院 校 ) 

dl<-read.csv(" 第 七 章 / 毕 业 生 数据 2.csv") 

а1<-41[,31321 

d1[," 是 否 一 年 内 离职 "]<-factor (dl [, "是 否 一 年 内 离职 "] ) 

levels (d1[, "是 否 一 年 内 离职 "] )<-1ist (在 职 =0, 离 职 =1) 

# 建 立 随机 森林 模型 

set.seed(101010) 


ml< - randomForest (是 否 一 年 内 离职 ~., data = d1, proximity = TRUE, 
importance=TRUE, na.rm=TRUE) # 建 立 模型 


小 肖 : 看 上 去 建 模 过 程 简洁 快速 , 读 取 数 据 之 后 立马 就 建 好 算法 模 
型 了 ,而 且 就 用 了 一 条 语句 。 

Miss 陈 : 是 的 。 其 实 许多 算法 都 是 原理 复杂 、 解 释 复 杂 , 理 解 起 来 困 
难 ,但 是 应 用 却 是 比较 简单 的 。Boosting 和 随机 森林 的 建 模 过 程 只 需 一 
条 语句 一 个 函数 就 完成 了 。 不 过 在 执行 这 条 语句 的 时 候 ,会 花 一 点 时 
间 , 时 间 多 少 取决 于 数据 量 大 小 ,数据 越 大 耗 时 会 越 多 。 比 如 ,我 们 对 离 
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职 倾向 的 分 析 , 有 30 个 变量 、1 459 条 数据 ,执行 建 模 语句 消耗 的 时 间 大 
约 要 一 分 钟 。 

小 肖 : 时 间 不 算 长 啊 。 

Miss Ж: 如 果 数 据 量 很 大 ,有 上 百 万 条 数据 的 时 候 ,计算 时 间 就 会 
很 长 了 。 还 好 我 们 在 企业 管理 中 所 面 对 的 数据 量 都 不 算 大 ,不 用 处 理 大 
量 的 数据 。 


742 检验 


Miss 陈 : 接 下 来 我 们 检验 一 下 两 个 模型 的 预测 效果 。 

小 肖 : 好 的 ,要 怎么 检验 呢 ? 

Miss K: 我 们 就 拿 原始 数据 来 检验 吧 。 将 原始 数据 代入 模型 中 进 
行 模拟 “预测 ”, 将 “预测 ”结果 和 实际 结果 进行 比较 。 

1. Boosting 模型 预测 效果 检验 

Boosting 模型 效果 检验 的 R 语句 如 下 : 


p<-predict (m,d) # 用 原始 数据 进行 预测 
table (d$ 是 否 一 年 内 高 职 , p$class) # 查 看 预测 结果 与 原始 数据 之 间 的 差异 
情况 


预测 结果 与 实际 情况 的 对 比 见 表 7-3。 


表 7-3 预测 结果 与 实际 情况 的 对 比 ( 基 于 Boosting 模型 ) 单位: 人 


"A 离职 在 职 
实际 
在 职 0 1217 
离职 242 0 


AX 7-3 可 以 看 到 ,预测 在 职 1 217 人 ,实际 在 职 1 217 人 ,实际 离职 
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242 人 ,预测 离职 242 人 , 误 判 率 为 0, 预 测 效果 相当 好 。 


2. 随机 森林 模型 预测 效果 检验 
随机 森林 模型 检验 效果 的 R 语 句 如 下 : 


pl<-predict (m1,d1) # 用 原始 数据 进行 预测 (直接 给 出 分 类 结果 ) 
table (d1$ 是 否 1 年 内 离职 ,P1)  # 查 看 预测 结果 与 原始 数据 之 间 的 差异 情况 


预测 结果 与 实际 情况 的 对 比 见 表 7-4。 


表 7-4 ”预测 结果 与 实际 情况 的 对 比 ( 基 于 随机 森林 模型 ) 


单位 : 人 
им 离职 在 职 
实际 
在 职 1217 0 
离职 0 242 


从 上 表 可 以 看 到 ,随机 森林 模型 预测 的 结果 与 实际 的 情况 完全 一 致 ， 
误 判 率 为 0, 与 Boosting 模型 一 样 具有 非常 好 的 预测 效果 。 


7.43 应 用 


小 肖 : 经 理 ,今年 应 届 毕 业 生 的 招聘 咱 就 用 这 算法 来 分 析 预 测 吧 。 

Miss 陈 : 可 以 的 。 

小 肖 : 实际 应 用 的 时 候 , 是 否 将 每 个 大 学 生 的 数据 代入 模型 中 ,就 可 
以 预测 入 职 后 的 离职 概率 了 ? 

Miss 陈 : 是 的 。 但 提醒 一 点 , 事 无 绝对 ,这 类 算法 虽然 有 很 高 的 预测 
精度 ,但 仍然 是 建立 在 概率 统计 基础 上 的 算法 ,仍然 有 误 判 概率 。 实 际 应 
用 中 应 将 其 预测 结果 作为 参考 , 而 不 应 作为 招聘 标准 ,完全 依赖 计算 
结果 。 
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小 肖 : 好 的 ,我 们 会 以 预测 数据 作为 参考 ,结合 招聘 经 验 和 其 他 信 
息 ,综合 决策 。 

Miss Ж: 关于 Boosting 和 随机 森林 算法 ,背后 有 复杂 的 统计 学 原 
理 ,我 们 没有 展开 讲解 。 如 果 你 感 兴趣 ,可 以 找 这 方面 的 资料 来 学 习 。 这 
里 再 次 表达 对 R 语言 的 喜爱 和 赞美 ,如 果 没 有 R 语言 ,要 使 用 上 这 类 算 
法 将 会 非常 麻烦 。 

小 肖 : 好 的 ,谢谢 经 理 。 


В 
= 
第 8 章 


员工 辞职 报告 的 情感 分 析 


导语 : 离职 面谈 是 员工 离职 管理 的 重要 内 容 , 如 果 在 离 
职 面谈 时 能 够 提前 掌握 员工 离职 前 后 的 情感 要 素 , 将 有 助 于 
提高 离职 面谈 的 成 功率 。 本 章 介绍 如 何 运用 数据 分 析 中 比 
较 少 见 的 文本 分 析 方法 ,从 员工 提交 的 辞职 报告 中 挖掘 情感 
信息 ,掌握 员工 离职 时 的 情感 线索 。 
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В ara 


小 肖 : 经 理 ,向 您 汇报 一 件 事 。 

Miss 陈 : 什么 事 ? 

小 肖 : 最 近 有 几 个 骨干 员工 离职 。 我 跟 他 们 进行 了 离职 面谈 ,希望 
了 解 离职 的 原因 ,并 尽量 挽留 。 但 他 们 都 说 得 含糊 其 词 , 摸 不 清楚 他 们 提 
出 离职 的 真实 原因 ,也 没有 挽留 成 功 。 

Miss 陈 : 如 果 员 工 主动 辞职 ,那么 在 离职 面谈 时 ,员工 通常 会 很 并 
慎 。 出 于 保护 自己 ,顺利 离职 的 心理 倾向 ,不 太 愿意 吐露 真实 想法 。 一 般 
要 等 离职 完成 后 一 段 时 间 , 才 有 可 能 说 出 真正 的 原因 。 

小 肖 : 那 怎么 办 呢 ? 这样 离职 面谈 好 像 就 没有 必要 了 。 

Miss 陈 : 离职 面谈 自然 是 很 重要 的 ,一 次 离职 面谈 就 是 一 次 管理 咨 
询 的 过 程 。 离 职 的 时 候 是 员工 关系 管理 的 脆弱 阶段 ,如 果 工 作 做 得 好 ,将 
能 挽留 住 员 工 , 减 少 损 失 。 否 则 极 有 可 能 使 离职 员工 心怀 不 满 ,激化 矛 
盾 , 其 至 引起 劳动 纠纷 。 离 职 管理 同时 也 影响 着 在 职员 工 的 情绪 和 心理 。 
在 员工 离职 管理 诸多 环节 中 ,离职 面谈 的 作用 不 可 低估 。 

小 肖 : 那 应 该 怎么 进行 离职 面谈 才 有 效果 呢 ? 

Miss Ж: 离职 面谈 的 关键 点 是 了 解 员工 离职 的 原因 。 首 先 要 与 员 
工 的 所 在 部 门 沟通 ,了 解 部 门 经 理 对 于 员工 离职 的 态度 ,确认 挽留 该 员工 
的 必要 性 ,了 解 员工 当前 工作 的 进展 情况 ,以 及 如 果 离 职 在 什么 时 候 交 接 
工作 比较 合适 ,人 力 资 源 管理 部 门 如 何 配合 部 门 经 理 掌 握 离 职 进程 的 安 
排 ,等 等 。 然 后 尽 可 能 收集 该 员工 的 信息 ,包括 近 段 时 间 的 绩效 考核 情 
况 .同事 之 间 的 口碑 、 劳 动 合 同 状 况 等 ,还 需要 查阅 和 分 析 员 工 的 辞职 
报告 。 
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小 肖 : 经 理 , 您 说 的 大 部 分 工作 我 们 都 会 处 理 , 但 是 辞职 报告 需要 查 
阅 和 分 析 吗 ,有 什么 用 意 呢 ? 

Miss K: 辞职 报告 比较 重要 。 首 先 ,辞职 报告 能 证 明 员 工 是 主动 辞 
职 , 在 法 律 上 有 效力 ,这 是 其 最 重要 的 作用 。 其 次 ,我们 还 可 以 从 辞职 报 
告 中 分 析 员工 潜藏 的 情绪 特征 。 

小 肖 : 从 辞职 报告 中 分 析 员 工 潜 藏 的 情绪 特征 ,这 个 咱们 能 办 到 吗 ? 

Miss 陈 : 可 以 的 ,我 们 可 以 用 数据 分 析 的 方法 来 探索 员工 的 情绪 

小 肖 : 但 是 ,分 析 员 工 的 情绪 特征 有 什么 意义 呢 ? 

Miss 陈 : 主要 是 配合 离职 面谈 使 用 ,能 够 帮助 我 们 较 准 确 地 把 握 员 
工 的 情绪 特征 ,采取 相关 的 应 对 措施 。 对 主动 离职 的 员工 ,离职 面谈 有 两 
个 目的 ,一 是 希望 挽留 核心 员工 ,二 是 了 解 离职 动机 。 通 过 离职 面谈 可 以 
分 析 离 职 是 否 与 企业 管理 或 者 政策 有 关 , 排 除 管理 隐患 ,如 果 发 现 企业 管 
理 存在 的 问题 ,就 要 及 时 补漏 ,避免 多 米 诺 骨 牌 效应 。 

如 果 我 们 在 离职 面谈 之 前 ,已 经 了 解 和 掌握 了 员工 在 离职 时 潜藏 的 
情绪 特征 ,那么 在 面谈 的 时 候 是 不 是 更 有 主动 权 呢 ?是 不 是 能 找到 与 员 
工 类 似 的 情绪 体验 ,更 能 理解 员工 的 心理 呢 ? 如 果 与 员工 在 心理 层面 拉 
近 了 上 距离 ,员工 是 不 是 更 容易 吐露 真实 想法 呢 ? 

小 肖 : 这 人 么 说 来 ,了 解 员工 的 情绪 特征 用 处 还 挺 大 ,但 是 怎样 做 才能 
从 辞职 报告 中 分 析出 员工 的 情绪 特征 呢 ? 您 说 用 数据 分 析 的 方法 ,但 是 
辞职 报告 都 是 文字 ,怎么 进行 数据 分 析 呢 ? 

Miss 陈 : 虽然 都 是 文字 ,但 也 可 以 用 数据 分 析 的 方法 ,这 种 分 析 方 
法 属于 文本 分 析 ,我 们 要 用 到 文本 分 析 技 术 中 的 情感 分 析 法 。 

小 肖 : 文本 分 析 ? 情感 分 析 ? 听 上 去 不 太 明 白 呢 。 

Miss Ж: 请 找 一 份 员工 的 辞职 报告 来 吧 ,我 们 模拟 分 析 一 次 就 清 
ÆT. 
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小 肖 : 好 的 。 
811 数据 准备 


Miss 陈 : 你 准备 好 员工 的 辞职 报告 了 吗 ? 
小 肖 : 准备 好 了 ,下 面 是 一 位 员工 的 辞职 报告 ,原文 ?如 下 。 


尊敬 的 XXX 领导: 

在 递交 这 份 辞 呈 时 ,我 的 心情 十 分 矛盾 。 现 在 公司 的 发 展 需要 大 家 
竭尽 全 力 , 由 于 我 状态 不 佳 和 一 些 个 人 原因 的 影响 ,无 法 为 公司 做 出 相应 
的 贡献 ,因此 请 求 允 许 离开 。 

从 昨天 晚上 到 今天 ,是 继续 坚持 还 是 果断 放弃 ? 这 个 问题 一 直 困 扰 
着 我 ,经 过 一 天 一 夜 的 考虑 ,我 还 是 选择 放弃 。 曾 经 那么 大 的 风浪 都 插 过 
来 了 ,多 么 难过 的 坎 也 过 去 了 ,如 今 为 什么 就 选择 放弃 呢 ? 这 个 问题 我 也 
问 过 自己 ,回想 这 两 年 来 ,其 实 我 比 任何 人 都 珍惜 这 份 工 作 , 我 知道 我 不 
是 最 优秀 的 ,但 我 是 非常 努力 的 。 值 得 庆幸 的 是 至 少 学 生 对 我 的 责任 心 
和 努力 付出 是 非常 肯定 的 。 

仅 任 学 生 的 几 句 话 ,我 就 知道 我 这 两 年 的 努力 是 值得 的 。 

企业 和 领导 对 员工 的 肯定 与 鼓励 ,关心 与 爱护 ,就 如 同 老师 对 学 生 的 
肯定 与 鼓励 ,关心 与 爱护 ,让 学 生 在 精神 上 取得 莫大 的 鼓舞 从 而 会 更 加 自 
党 地 努力 学 习 ; 对 于 员工 来 说 ,也 会 发 自 内 心 的 \ 心 甘 情 愿 地 为 企业 做 贡 
献 , 使 企业 得 以 更 好 的 发 展 。 其 实 我 认为 这 是 相互 的 ,老师 对 学 生 不 付出 
爱 , 学 生 当 然 也 不 会 爱 老 师 , 少 一 点 私心 ,多 一 点 无 私 ,真心 真意 为 学 生 着 
想 ,学 生 才 会 真 的 爱 老 师 ,班级 才 会 团结 稳定 。 从 2006 年 9 月 带 A 班 和 
B 班 开始 ,我 一 直 这 么 认为 ,也 一 直 这 样 努力 着 ,可 是 渐渐 地 ,我 发 现 因为 


O 本 辞职 报告 的 内 容 纯 属 虚构 。 
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各 方面 的 因素 这 一 点 越 来 越 难 做 到 了 ,可 能 是 我 太 单纯 ,可 能 是 我 不 成 
熟 , 可 能 是 我 太 理想 化 ,我 感到 迷茫 和 困惑 。 做 任何 事 我 都 很 努力 、 很 认 
真 , 我 不 想 混 ,那样 会 让 我 良心 不 安 ,同时 我 胆 小 , 做 事 之 前 ,都 要 思 来 想 
去 , 瞻 前 顾 后 ,害怕 出 现 自己 不 能 预料 的 后 果 , 缺 乏 啤 力 , 这 也 是 我 在 工作 
上 难以 得 到 发 展 的 致命 缺点 。 不 果断 ,是 我 另 一 个 致命 的 缺点 。 

如 今 我 的 工作 也 真 的 走 到 了 瓶颈 处 ,因此 我 不 得 不 离开 。 

也 许 此 时 提出 辞呈 会 显得 不 合适 ,公司 正 处 于 快速 发 展 的 阶段 ,同事 
们 都 是 斗志 昂扬 ,壮志 满怀 ,而 我 在 这 时 候 却 因 个 人 原因 无 法 为 公司 分 
忱 ,实在 是 深 感 孝 意 。 其 实 我 也 很 不 舍 , 舍 不 得 那些 既 让 人 爱 又 让 人 恨 的 
学 生 , 合 不 得 相处 了 两 年 的 同事 ,感谢 向 老师 一 直 以 来 对 我 的 关心 和 教 
导 , 也 感谢 肖 老 师 平时 对 我 的 关心 和 帮助 ,在 他 们 身上 有 很 多 值得 我 学 习 
的 地 方 ,向 老师 超 强 的 处 事 能 力 , 肖 老师 圆滑 的 为 人 处 世 风 格 ,这 些 都 是 
我 非常 缺乏 的 。 更 加 感谢 公司 给 了 我 做 老师 的 机 会 ,感谢 公司 所 有 领导 
和 同事 对 我 的 教诲 和 关心 ,这 两 年 我 也 收获 颇 丰 。 

最 后 ,我 有 一 个 请 求 , 从 去 年 周年 庆 到 今年 周年 庆 , 我 又 工作 了 整整 
一 年 ,虽然 没有 取得 过 人 的 成 绩 ,但 我 是 在 勤 勤 忍 尽 地 做 事 , 我 从 来 不 会 
提出 要 求 , 这 也 是 我 的 第 三 个 缺点 ,这 是 我 第 一 次 也 是 最 后 一 次 要 求 , 尽 
请 领导 在 结算 工资 时 将 周年 庆 奖 金 和 2006 年 9 月 至 2007 年 12 月 所 欠 
的 社保 费用 连同 工资 一 起 结算 给 我 ,不 胜 感 激 ! 

我 希望 公司 领导 在 百 忙 之 中 抽出 时 间 商 量 一 下 工作 交接 问题 。 本 人 
将 于 2008 年 9 月 5 日 离职 ,希望 得 到 领导 的 准许 ! 感谢 诸位 在 我 在 公司 
期 间 给 予 我 的 信任 和 支持 ,并 祝 所 有 的 同事 和 朋友 在 工作 和 活动 中 取得 
更 大 的 成 绩 和 收益 ! 

此 致 
敬礼 ! 


Miss 陈 : 好 的 , 接 下 来 我 们 看 看 应 该 如 何 进行 分 析 。 
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812 分 析 结 果 与 解释 


Miss Ж: 由 于 分 析 过 程 比较 复杂 ,为 便于 理解 ,我们 先 看 分 析 结 果 ， 
再 谈 分 析 过 程 。 
辞职 报告 的 情感 类 别 分 析 结 果 如 图 8-1 所 示 。 


0.6 一 


0.4 一 


情感 分 析 得 分 占 比 


ЕН w 好 йй Шо о Ж & 
情感 


图 8-1 辞职 报告 的 情感 类 别 分 析 结果 


辞职 报告 的 情感 极 性 分 析 结 果 如 图 8-2 所 示 。 

图 8-1、 图 8-2 是 辞职 报告 的 两 种 情感 分 析 结 果 , 一 是 按 情感 类 别 分 
析 ; 二 是 按 情 感 极 性 分 析 。 横 坐标 分 别 是 情感 类 别 和 情感 极 性 , 纵 坐标 是 
各 种 情感 类 别 和 情感 极 性 得 分 在 总 分 中 的 占 比 。 

小 肖 : 图 形 显示 的 结果 很 直观 ,各 类 情感 的 重要 性 一 目 了 然 。 

Miss 陈 : 是 的 。 比 如 对 这 份 辞职 报告 的 情感 类 别 分 析 , 可 以 看 到 主 
要 情感 是 “好 ”; 其 次 是 “ 乐 ”; 再 次 是 “ 衣 ”, 且 “好 ”是 主导 情绪 。 

“好 ?反映 尊敬 、 赞 扬 、 相 信 、 喜 爱 的 情绪 ， 乐 "反映 快乐 .安心 的 情绪 ， 
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得 分 占 比 


贬义 中 性 
вн 
8-2 辞职 报告 的 情感 极 性 分 析 结 果 


这 就 是 整 篇 辞职 报告 反映 出 的 情绪 特征 。 其 中 也 有 一 点 " 误 ” 的 情绪 , 京 
反映 悲伤 ,失望 的 情绪 ,在 辞职 报告 中 有 这 种 情绪 可 以 理解 。 还 好 在 这 篇 
辞职 报告 中 这 类 情绪 占 比 并 不 高 。 

从 情感 极 性 分 析 , 可 以 看 出 醇 职 报告 的 主要 情感 极 性 是 讲义 ;其 次 是 
中 性 ;贬义 情感 虽 有 但 占 比 不 高 ,这 也 印证 了 情感 类 别 分 析 的 结果 。 

总 体 来 看 ,这 篇 辞职 报告 以 正面 情绪 为 主 ,情绪 相对 积极 .平稳 ,没有 
包含 过 多 的 负面 情绪 ,辞职 原因 不 太 可 能 是 对 工作 不 满 . 与 主管 冲突 而 产 
生 怨 气 所 致 。 

小 肖 : 真 不 可 思议 ,您 的 分 析 和 实际 情况 基本 是 吻合 的 。 我 了 解 过 
这 名 员工 的 情况 ,他 本 来 工作 挺 好 的 ,辞职 原因 是 受 同学 的 邀请 而 去 
创业 。 

Miss Ж. 这 些 都 是 根据 分 析 结 果 所 进行 的 推论 。 不 过 员工 为 顺利 
辞职 通常 会 倾向 于 隐藏 情绪 ,所 以 即使 负面 情绪 占 比 少 ,也 要 重点 关注 。 
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比如 仔细 阅读 辞职 报告 ,会 发 现 员工 提 到 拖欠 奖金 和 社保 费用 的 事情 ,这 
点 要 引起 重视 ,很 可 能 不 是 个 别 现象 。 情 感 分 析 可 以 为 离职 面谈 提供 分 
析 素 材 ,具体 应 用 还 要 看 实际 情况 。 

小 肖 : 明白 了 。 那 么 您 快 讲 讲 如 何 进行 情感 分 析 吧 , 咱 等 不 及 要 学 
习 一 下 这 方面 的 知识 了 ! 

Miss 陈 : 好 的 。 


@ 分 析 方 法 
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Miss Ж: 首先 介绍 一 些 基础 知识 。 一 篇 文章 反映 了 什么 情感 ? 蛮 义 
还 是 贬义 ? 肯定 还 是 否定 ? 反映 喜 . 她 、 哀 `. 乐 . 愁 中 的 哪些 情感 特征 ? 对 
这 些 问题 的 分 析 就 是 情感 分 析 , 或 者 叫 情感 倾向 分 析 。 有 正常 阅读 能 力 
的 人 ,在 看 了 一 篇 文章 后 也 能 够 判断 文章 表达 的 情感 。 但 这 是 主观 评价 ， 
不 够 精确 ,不 是 量化 数据 。 在 对 文章 进行 文本 分 析 的 时 候 , 通 常 要 将 文本 
内 容 进 行 量化 转换 ,才能 够 更 加 直观 、 精 准 地 分 析 。 

情感 分 析 有 两 种 方式 ,一 种 是 情感 极 性 分 析 ,一 种 是 情感 类 别 分 析 。 
前 者 分 析 文 章 的 总 体 情感 态度 ,是 “讲义 “贬义 ”还 是 “中 性 ”, 后 者 分 析 文 
章 反 映 了 哪 种 情感 ? 具体 来 说 有 “ 乐 “ 好 ”“ 怒 “ 衣 “ 惧 ”“ 恶 “ 惊 ” 等 情感 
类 别 。 

小 肖 : 明白 ,原来 情感 极 性 分 析 就 是 分 析 文章 的 襄 义 .贬义 等 极端 情 
绪 ,情感 类 别 分 析 就 是 分 析 文 章 的 情感 类 别 。 但 是 用 什么 方法 进行 分 
析 呢 ? 

Miss 陈 : 情感 分 析 的 方法 有 两 类 ,一 类 是 基于 情感 词典 的 方法 ,一 
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类 是 基于 机 器 学 习 的 方法 。 

小 肖 : 什么 是 基于 情感 词典 的 方法 呢 ? 

Miss 陈 : 基于 情感 词典 的 方法 ,就 是 用 已 经 标注 情感 类 别 和 情感 极 
性 的 词典 来 进行 文本 分 析 , 这 种 词典 即 是 情感 词典 。 情 感 词典 归纳 了 与 
情感 相关 的 词汇 ,标注 了 每 个 词汇 的 情感 类 别 和 极 性 ,还 根据 情感 强烈 程 
度 进行 了 等 级 评定 。 分 析 时 ,需要 提取 文本 中 的 每 个 词语 ,然后 找到 词语 
对 应 的 情感 类 别 和 极 性 ,分 类 汇总 等 级 评分 ,就 可 以 得 出 情感 类 别 和 极 性 
各 自 的 分 数 了 。 

小 肖 : 原来 是 这 样 ,那么 基于 机 器 学 习 的 方法 又 是 什么 呢 ? 

Miss Ж: 基于 机 器 学 习 的 方法 是 指 用 机 器 学 习 算 法 ,通过 学 习 不 同 
情感 类 别 的 文本 ,建立 算法 模型 ,然后 用 算法 模型 来 识别 新 文章 的 情感 类 
别 。 使 用 这 类 方法 有 个 前 提 ,就 是 必须 事先 收集 大 量 的 学 习 材 料 , 即 已 经 
按 情感 类 别 分 类 的 文章 ,作为 建立 模型 的 训练 集 ,给 算法 建 模 。 学 习 材料 
越 多 ,模型 效果 越 好 。 模 型 建 好 后 ,将 新 文章 输入 模型 中 计算 情感 类 别 。 

比如 要 进行 情感 极 性 分 析 , 需 要 收集 尽 可 能 多 的 “讲义 ”文章 和 “ 贬 
义 ” 文 章 来 建立 模型 ,这 实际 上 非常 困难 。 如 果 能 比较 方便 地 获得 分 级 文 
童 ,分 析 就 轻松 得 多 。 比 如 豆瓣 网 的 电影 评论 ,每 个 评论 都 有 对 应 的 星 
级 ,总 共 五 个 星 级 。 每 个 星 级 对 应 的 评论 就 构成 了 这 一 等 级 的 学 习 材料 。 
根据 这 些 材料 进行 机 器 学 习 , 就 能 轻松 建立 算法 模型 ,实现 对 新 评论 的 自 
动 分 级 。 机 器 学 习 有 不 少 算法 ,比如 贝 叶 斯 分 类 器 .决策 树 .随机 和 森林 等 ， 
之 前 我 们 讲 过 的 Boosting 也 属于 机 器 学 习 算 法 。 

小 肖 : 这 么 说 来 用 机 器 学 习 算法 进行 情感 分 析 要 复杂 得 多 ,主要 是 
学 习 材 料 不 好 收集 。 

Miss Ж: 是 的 。 所 以 我 们 这 次 就 选择 相对 容易 、 较 好 实现 的 基于 情 
感 词典 的 分 析 方法 吧 。 

小 肖 : 但 是 到 哪里 去 找 情 感 词典 呢 ? 
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Miss Ж: 关于 情感 词典 ,英文 版 的 多 ,中 文 版 的 少 。 毕 竟 这 方面 的 研 
究 还 是 国外 的 起 步 早 、 研 究 多 。 不 过 随 着 我 国 研究 的 发 展 , 也 开发 出 了 一 


些 中 文 版 情感 词典 ,包括 以 下 几 种 。 


(1) 台湾 大 学 研发 的 中 文 情 感 极 性 词典 NTUSD。 
(2) 大 连理 工大 学 的 情感 本 体 词汇 。 
(3) 知 网 发 布 的 “情感 分 析 用 词语 集 (beta 版 )”。 
(4) 哈尔滨 工业 大 学 社会 计算 与 信息 检索 研究 中 心 的 (同义词 词 林 》。 


这 些 词典 各 有 特色 , 且 都 免费 提供 使 用 。 我 们 这 次 用 的 是 大 连理 工 
大 学 的 情感 本 体 词汇 。 词 典 结构 和 部 分 内 容 见 表 8-1。 


表 8-1 情感 本 体 词汇 示例 


йш | Мы PDQ Мы | s | 强度 в Жук 强度 | mit 
脏 乱 | adj 1 1 NN 7 2 

糟 报 | adj 1 NN 5 2 

早衰 | adj 1 1 NE 5 2 

责备 | verb 1 1 NN 5 2 

WIR | noun 1 1 NN 5 2 

战 祸 | noun 1 1 Мр 5 2 МС 5 2 
招 灾 | adj 1 1 NN 5 2 

COE | noun 1 1 МЕ 5 2 ММ 5 2 
中 山 狼 | noun 1 1 NN 5 2 

清 峻 | adj 1 1 PH 5 

Wæ | adj 1 1 PH 5 1 

轻 倩 | adj 1 1 РН 5 1 

晴 丽 | аф 1 1 РН 5 1 


小 肖 : 情感 类 别 是 怎么 划分 的 呢 ? 


第 8 章 员工 辞职 报告 的 情感 分 析 Ши 201 


Miss 陈 : 以 大 连理 工大 学 的 情感 本 体 词 汇 为 例 , 情 感 词汇 被 划分 为 
七 个 类 别 ,每 个 类 别 又 细 分 为 若干 子 类 别 , 共 有 20 个 子 类 别 。 看 看 表 8-2 
的 内 容 你 就 明白 了 。 


表 8-2 情感 类 别 划分 


情感 大 类 情感 小 类 例 й 

过 快乐 ERKE KIKK AKRE 
安心 踏实 、 宽 心 ` 定 心 丸 .问心 无 愧 
尊敬 恭敬 敬爱. 毕 恭 毕 敬 、 肃 然 起 敬 
赞扬 英俊 ,优秀 、 通 情 达 理 、 实 事 求 是 

ч 相信 信任 、 信 赖 . 可 靠 . 毋 庸 置疑 、 
喜爱 倾慕 ,宝贝 一见钟情、 爱不释手 

ж 愤怒 ARK KREE EAER 
悲伤 优 伤 , 悲 苦心 如 刀 割 ,悲痛 欲 绝 

ë 失望 BEFAR ROKI DORER 


次 ARAFE GERE HbA 
思 相思 ,思念 、 牵 肠 挂 肚 、 朝 思 艾 想 
ti ЖОК b tit AS NIB B FAE 
® 
ж 


Са ЛАА, агй. PIRSA „ЛА АЙТУ 

害羞 、 害 腺 、 面 红 耳 赤 、 无 地 自 容 

ЖШ Ж R DREL Н FR 

1836 反感 .可 耻 、 恨 之 人 骨 、\ 深 恶 痛 绝 

恶 Гад ЖЖ ЧЕТЕ ТЕ 38 
妒忌 眼红 、 吃 醋 . 醋 坛子 、 嫉 贤 妨 能 

怀疑 多 心 . 生 疑 、 将 信 将 疑 \ 疑 神 疑 鬼 

惊 惊奇 奇怪 奇迹、 大 吃 一 惊 . 瞳 目 结 舌 


小 肖 : 明白 了 。 大 连理 工大 学 的 情感 本 体 词 汇 把 情感 分 为 了 七 类 ， 
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每 个 子 类 别 也 很 清晰 。 请 问 这 个 类 别 跟 咱 们 所 说 的 七 情 六 欲 中 的 七 情 有 
关系 吗 ? 
Miss Ж: 有 一 定 的 对 应 关系 ,这 方面 你 可 以 自行 研究 。 
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小 肖 : 有 了 情感 词典 我 们 就 可 以 进行 分 析 了 吧 。 不 过 ,怎样 才能 把 
一 篇 文章 的 词语 提取 出 来 呢 ? 我 们 的 文章 中 每 句 话 的 词语 都 是 连 在 一 起 
的 ,不 像 英文 那样 是 分 开 的 ,有 空格 间隔 ,不 太 好 区 分 啊 。 

Miss 陈 : 很 好 ,你 发 现 了 一 个 重要 的 问题 。 中 文句 子 中 的 词语 没有 
明显 的 间隔 ,要 想 区 分 并 提取 词语 ,难度 要 比 英语 大 ,这 涉及 另 一 个 领域 ， 
即 中 文 分 词 技术 。 

小 肖 : 中 文 分 词 技术 是 什么 意思 呢 ? 

Miss Ж: 就 是 将 中 文句 子 分 解 成 词语 。“ 英 文 以 空格 作为 天 然 的 分 
隔 符 ,而 中 文 由 于 继承 古代 汉语 的 传统 ,词语 之 间 没 有 分 隔 。 上 古代 汉 语 中 
除了 联 绵 词 和 人 名 、 地 名 等 , 词 通常 就 是 单个 汉字 ,所 以 当时 没有 分 词 书 
写 的 必要 。” 而 现代 汉语 中 双 字 或 多 字 词 居多 ,一 个 字 不 再 等 同 于 一 个 词 ， 
但 由 于 沿用 古代 汉语 习惯 , 句 中 没有 间隔 区 分 词语 。 

要 想 从 中 文句 子 中 分 解 出 词语 ,需要 用 到 分 词 算法 。“ 现 有 的 分 词 算 
法 可 分 为 三 大 类 : 基于 字符 串 匹 配 的 分 词 方法 、 基 于 理解 的 分 词 方法 和 
基于 统计 的 分 词 方 法 。 按 照 是 否 与 词性 标注 过 程 相 结 合 ,又 可 以 分 为 单 
纯 分 词 方法 和 分 词 与 标注 相 结合 的 一 体 化 方法 .” 了 

互联 网 搜索 引擎 就 用 到 了 分 词 技术 。 比 如 谷歌 和 百度 搜索 引擎 ,会 
根据 输入 的 内 容 , 通 过 分 词 算 法 提取 词语 ,然后 找到 关键 词 ,匹配 搜索 
结果 。 


© 引用 自 必 应 网 典 。 
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小 肖 : 原来 中 文句 子 分 解 成 词语 需要 这 么 复杂 的 技术 啊 , 那 怎么 办 
呢 ,我 们 有 什么 办 法 对 句子 进行 分 词 的 操作 呢 ? 

Miss К: 一 些 高 校 有 专业 研究 人 员 从 事 这 方面 的 研究 ,并 且 向 社会 
贡献 出 了 他 们 的 研究 成 果 。 我 们 这 次 就 要 用 到 中 科 院 的 Ictclas 中 文 分 
词 算法 ,采用 隐 马 尔 科 夫 模型 (Hidden Markov Model, НММ) 编写 的 
java 分 词 程序 ,在 R 语言 中 可 以 调用 该 算法 进行 分 词 。 

小 肖 : 要 怎么 做 呢 ? 

Miss Ж: 其 实 做 起 来 很 简单 ,分词 的 速度 很 快 , 虹 眼 工夫 就 可 以 完 
成 一 篇 文章 的 分 词 ,来 试 试 吧 ! 


8.3.1 导入 分 析 内 容 


Miss Ж: 首先 ,我 们 需要 在 R 语言 中 导入 分 析 材 料 。 这 就 像 做 菜 ， 
先 将 食材 准备 好 ,然后 才 开 始 亮 饪 。 要 导入 的 材料 包括 辞职 报告 文本 和 
情感 本 体 词 库 。 

小 肖 : 这 些 材料 都 有 了 。 辞 职 报告 是 Word 版 本 ,情感 本 体 词 库 是 
Excel 版 本 ,可 以 直接 用 吗 ? 

Miss Ж: 需要 转换 一 下 。 辞 职 报告 要 转换 为 纯 文 本 ,后 缀 名 是 txt. ; 
情感 本 体 词 库 要 转换 为 后 缀 名 是 csv. 格式 的 版 本 。 

小 肖 : 好 的 ,我 马上 转换 一 下 。 咽 ,转换 好 了 。 

Miss Ж: 那么 现在 可 以 导入 这 些 内 容 了 。 

导入 辞职 报告 和 情感 本 体 词 库 的 R 语句 如 下 : 
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# 导 入 辞职 报告 

myfile=scan(" 第 八 章 /辞职 报告 模板 .txt", what="", sep="\n") 

# 导 和 情感 本 体 词 库 

mydict<-read.csv(" 第 八 章 /情感 词汇 本 体 .csv") 

# 获 得 衰 义 词 库 

mydict.p.Word<-subset (mydict,mydict$ 极 性 =="1") 

# 获 得 贬义 词 库 

mydict.n.Word<-subset (mydict,mydict$ 极 性 =="2") 

# 获 得 中 性 词 库 

mydict.m.Word<-subset (mydict,mydict$ 极 性 =="0") 

# 获 得 词 库 : Ж 

mydict .le<-subset (mydict,mydict$ 情 感 分 类 ==c ("PA", "PE")) 

# 获 得 词 库 : 好 

mydict .ha<-subset (mydict,mydict$ 情 感 分 类 ==c ("PD", "PH", "PG", 
mp 

# 获 得 词 库 : Ж 

mydict.lu<-subset (mydict,mydict$ 情 感 分 类 =="NA") 

# 获 得 词 库 : Ж 

mydict.ai<-subset (mydict,mydict$ 情 感 分 类 ==c ("мв", "МЈ", "МН", 
"РЕ")) 

# 获 得 词 库 : 惧 

mydict.ju<-subset (mydict,mydict$ 情 感 分 类 ==c ("NI*%,"NC”?”,"NG"”)) 
# 获 得 词 库 : ЖЕ 

mydict.wu<- subset (mydict,mydict$ 情 感 分 类 ==c ("МЕ", "Мр", "ММ", 
"мк", "NL")) 

# 获 得 词 库 : 惊 

mydict.ji<-subset (mydict,mydict$ 情 感 分 类 =="PC") 


832 ”分词 


Miss Ж: 接 下 来 进行 分 词 操作 ,把 导入 的 辞职 报告 中 的 词语 提取 
出 来 。 

小 肖 : 是 调用 中 国 科 学 院 的 Ictclas 中 文 分 词 算法 进行 分 词 吧 ? 

Miss к: 是 的 。 正 常情 况 下 ,分 词 需要 过 滤 一 些 内 容 , 包 括 以 下 两 
方面 。 
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D 过 小 标点 符号 和 空格 ,因为 这 些 不 是 词语 。 
D 过 滤 停 用 词 。 停 用 词 是 指 没有 实际 含义 或 分 析 价值 低 的 词语 ， 
包括 英文 字符 .数字 .数学 字符 、 使 用 频率 高 的 单个 汉字 等 。 但 进行 文本 
情感 分 析 不 用 过 滤 停 用 词 ,因为 运用 情感 词典 进行 分 析 时 会 自动 过 小 挤 
这 些 词语 。 这 篇 冬 职 报告 分 词 后 结果 如 下 : 
о а Е Са Д 
К аа АСЗ МА S А”, E “к. 
家 ”“ 调 尽 全 力 "“ 由 于 "“ 我 >“ 状态"“ 不 "“ 佳 "“ 和 ?”“ 一 些 "“ 个 
人 ”原因 "、“ 的 "影响 ”无 法 "为 "公司 "做 出 "“ 相 应 "的 ?、 
“贡献 "“ 因 此 “请求 "允许 "、“ 离 开 ”、“ 从 ”昨天 ”"“ 晚 上 ”到 ”“ 今 
天 “是 "继续 "“ 坚 持 "“ 还 "“ 是 "果断 "放弃 "、“ 这 个 "“ 问 题 ”、 
“一 直 ”、“ 困 护 ”“ 着 ”我 "、“ 经 过 ”、“ 一 天 ”一 夜 ”、“ 的 ”考虑 ”、“ 我 ”、 
“还 ”是 ”、“ 选 择 ”、“ 放 弃 ”、“ 曾 经 >?“ 那么 ”、“ 大 ”、“ 的 ”、“ 风 浪 "、“ 都 ”、 
EER ышы s,s лы АН, 
“如 今 ”、“ 为 什么 ”、“ 就 "、“ 选 择 ”、“ 放 弃 ”“ 呢 ”、“ 这 个 ”问题 ”"、“ 我 ”、 
“也 ”、“ 问 ”、“ 过 ”、“ 自 己 ”、“ 回 起 ”、“ 这 ”、“ 两 年 "、“ 来 ”、“ 其 实 ”、“ 我 ”、 
“ 比 "“ 任 何人”“ 都 "、 珍 展 "“ 这 ”“ 份 "“ 工 作 ”、“ 我 "“ 知 道 "“ 我 ”、 
“不 ”、" 是 ”最 ”优秀 ”、“ 的 ”、“ 但 ”“ 我 "、“ 是 ”、“ 非 常 "、“ 努 力 ”、“ 的 ”、 
“值得 ”、“ 庆 幸 ”、“ 的 ”是 ”至少 ”学生 ”对 ”我 ”、“ 的 ”责任 心 ”、 
“和 ”努力 ”付出 ”、“ 是 ”、“ 非 常 "、“ 表 定 ”、“ 的 ”、“ 仅 ”、“ 任 “学 生 ”、 
“的 "“ 几 自 ”“ 话 ">、“ 我 "“ 就 >“ 知道 "“ 我 >“ 这 ?、“ 两 年 "“ 的 "、“ 努 
力 ?“ 是 "值得 "、“ 的 "“ 企 业 "、“ 和 ”、“ 领 导 ”、“ 对 ”、“ 员 工 ”>“ 的 ">、“ 肯 
定 "“ 与 "鼓励 "~ 关心" 与 "、 爱 护 "就 "如 同 "老师 "“ 对 ”“ 学 
ж” 05 Аад P ek ass “з” p pu “зк”, esas. 
“&”. 07. E (RAR. OEA”. NE E OK”. E E a”. 
“自觉 ”、“ 地 ”努力 ”、“ 学 习 ”、“ 对 于 ”、“ 员 工 ”、“ 来 说 ”、“ 也 ”、“ 会 ”、“ 发 
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АСАУ ааа и а aRU R. 
С Ы Аа УД E е аг д 
РРА ФАУ, 
ТЕ АГАДЫ д Даа а 2 
аА агаа k 
的 ”、“ 爱 ”“ 老 师 ”“ 班 级 ”、“ 才 ”“ 会 ”“ 团 结 ”“ 稳 定 ”、“ 从 ”“2006 年 ”、 
Дт ФА 班 "、“ 和 ”、“B 班 ”、“ 开 始 ”、“ 我 ”一直 ”、“ 这 么 ”、“ 认 
为 ”也 ”一直 ”、“ 这 样 ”、“ 努 力 ”“ 着 ”“ 可 是 ”、“ 浙 渐 ”、“ 地 ”、“ 我 ”、“ 发 
现 ”、“ 国 为 ”各 ”方面 "、“ 的 ”因素 ”“ 这 ”一 点 ”“ 越 来 越 ”、“ 难 ”、 
ERRETA ETEA EERI RI RER TR RRA”, 
а TERI RI EK? 8467.7. B EE”, 
Ga? B RI? EIT? EERO AO A EA AA 
真 "“ 我 >“ 不 "“ 想 "、“ 混 ?那样 >“ 会 "“ 让 ?我 "良心 >“ 不 安 ”、 
асма МА М а 
ESEM RR Т RRI АМЫ RU RA” 
а а а аа E AAP “а” “ж”, 
“&”,“җФ”,“®”,“д”,“ж”,“җю”,“Ж”,“җ”,“я”,“—1”,“җ 
U C U U S R За” l s 
RIERO ETO AAO ЧАГАА “asik”. 
CWP REB “эрт” A EER DEAE E A 
T”. “RAR. ЧЫ МЫСЕ СЕ Ма E Зан 
Е с RIE Gk MR МЫ AA 
BO ER” A” DI DR RE RRE RKE” R 
Е Ы А ,*Ф” “жж” “е” RT A, 
“ 爱 ”、“ 又 ”、“ 让 ”人 ”、“ 恨 ”、“ 的 ”、“ 学 生 ”、“ 会 不 得 ”“ 相 处 ”、“ 了 ”、“ 两 
年 ”、“ 的 ”、“ 同 事 ”、“ 感 谢 ”、“ 向 ”老师 ”、“ 一 直 ”、“ 以 来 "对 ”、“ 我 ”、 
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“的 ”关心 ”和 ”、“ 教 导 ”、“ 也 ”、“ 感 谢 ”、“ 骨 ”、“ 老 师 ”、“ 平 时 ”“ 对 ”、 
“我 ”的 ”关心 “和 ”、“ 帮 助 ”、“ 在 ”、“ 他 们 ”、“ 身 上 ”、“ 有 ”、“ 很 多 ”、 
“值得 ”、“ 我 ”、“ 学 习 ”、“ 的 ”、“ 地 方 ”、“ 向 ”“ 老 师 ”、“ 起 ”、“ 强 ”、“ 的 ”、“ 处 
事 ”、“ 能 力 ”“ 肖 ”、“ 老 师 ”、“ 圆 滑 ”、“ 的 ”、“ 为 人 ”、“ 处 世 ”、“ 风 格 ”“ 这 
些 " 都 "“ 是 "“ 我 "非常 "缺乏 " “的 "更 加 "感谢 "“ 公 司 ”、 
“给 ”了 ”我 "做 ”、“ 老 师 ”、“ 的 ”、“ 机 会 了 “感谢 ”、“ 公 司 ”、“ 所 有 ”、 
“领导 "和 ”“ 同 事 "“ 对 ”“ 我 "、“ 的 "教诲 "“ 和 ”关心 "“ 这 ”“ 两 
年 "我 "也 ”收藏 "“ 颜 >、“ 丰 ”“ 最 后 "我 > 有 "一 个 "请求 ”、 
“从”、“ 去 年 ”、“ 周 年 ”、“ 庆 ”、“ 到 ”、“ 今 年 ”、“ 周 年 ”、“ 庆 ”、“ 我 ”、“ 又 ”、“ 工 
作 ”、“ 了 ”、“ 整 整 ”、“ 一 年 ”、“ 虽 然 ”、“ 没 有 ”、“ 取 得 ”“ 过 ”、“ 人 ”、“ 的 ”、“ 成 
绩 "“ 但 "我 "“ 是 "“ 在 "“ 勤 勤 居 时">、“ 地 ”“ 做 事 "、“ 我 "从 来 不 ”、 
“会 "提出 "“ 和 要求"“ 这 ”、“ 也 ?、“ 是 "“ 我 > “的 "、“ 第 三 个 "、“ 续 点 ”、 
“这 ”“ 是 "我 "“ 第 一 次 "“ 也 ”“ 是 "最 后 "“ 一 次 "要求 "、 居 请 ”、 
“领导 "“ 在 "“ 结 算 "“ 工 资 ">“ 时 ”“ 将 "“ 周 年 "“ 庆 ”“ 奖 金 "、“ 和 ?”、 
“2006 年 "9 月 "2007 年 "~“12 Я” K A CAR. ЖЯ”, 
“连同 "“ 工 资 "一 起 "结算 "、“ 给 "我 >“ 不 "、“ 胜 "、“ 感 激 "、“ 我 ”、 
“希望 "公司 "“ 领 导 "“ 在 "、“ 百 "、“ 忙 "之 中 "抽出 "“ 时 间 ”“ 商 
量 "“ 一 下 ?工作 ”“ 交 接 "“ 问 题 "本 人 ”将 于 ”“2008 年 ”、“9 月 ”、 
“5 日 ?离职 "希望 "“ 得 到 "“ 领 导 "“ 的 >、“ 准 许 "“ 感 谢 "“ 族 位 ”、 
ЗА Т а а 
持 ”、“ 并 ”、“ 祝 ”“ 所 有 ”、“ 同 事 ”"、“ 和 ”“ 朋 友 ”“ 们 ”、“ 在 ”“ 工 作 ”、“ 和 ”、 
“活动 ”、“ 中 ”、“ 取 得 ”、“ 更 ”、“ 大 ”、“ 的 ”、“ 成 绩 ”“ 和 ”、“ 收 益 ”"、“ 此 致 ”、 
“йд? 

小 肖 : 分 词 的 效果 不 错 啊 , 速 度 也 很 快 ,果然 怒 眼 之 间 就 出 结果 了 。 

Miss 陈 : 是 的 。 分 词 速度 能 够 如 此 之 快 ,和 现在 中 文 文本 分 析 技术 
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的 发 展 有 很 大 的 关系 。 中 文 分 词 算 法 发 展 了 好 几 代 ,由 于 R 语言 的 普 
及 ,有 爱好 者 将 中 文 分 词 的 功能 整合 到 了 其 中 ,于 是 在 R 语言 中 进行 中 
文 分 词 得 以 实现 。 早 几 年 想 进行 中 文 分 词 可 不 是 件 容易 的 事情 。 这 次 我 
们 只 是 计算 情感 积分 ,所 以 分 词 后 不 需要 对 文本 进行 其 他 加 工 。 

小 肖 : 什么 是 其 他 加 工 呢 ? 

Miss 陈 : 就 是 进一步 处 理 分 词 后 的 结果 ,包括 去 掉 停 用 词 、 判 断 词 
性 、 建 立 语料库 等 ,以 后 磁 到 这 些 情况 时 再 讨论 。 

分 词 的 及 语句 如 下 : 

# 分 句 ,去 标点 

myfile<- strsplit (myfile, split="") 

myfile.split<-unlist (myfile) 

# 去 空格 

myfile.split<- str triml(myfile.split) 

# 分 词 

myfile.Words<-lapply (myfile.split,FUN=segmentCN) 


myfile.Words<-as.vector (myfile.Words) 


833 计算 情感 积分 


Miss 陈 : 然后 就 是 最 重要 的 工作 : 计算 各 类 情感 的 积分 。 

小 肖 : 怎么 计算 呢 ? 

Miss 陈 : 分 词 后 计算 情感 积分 就 比较 简单 了 ,依次 根据 情感 词 库 中 
对 应 的 词语 ,找到 该 词语 所 属 情感 类 别 的 情感 强度 评分 ,将 各 类 情感 分 数 
累加 起 来 ,就 得 到 了 每 类 情感 的 积分 。 

小 肖 : 明白 了 ,这 步 操 作 有 点 像 Excel 中 的 条 件 查询 和 分 类 汇总 。 

Miss 陈 : 是 的 。 

情感 类 别 积分 的 结果 见 表 8-3。 
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表 8-3 情感 类 别 积分 计算 结果 


序号 类 别 积 分 

1 乐 0. 196 261 68 
2 好 0. 654 205 61 
3 & 0. 000 000 00 
4 ж 0.093 457 94 
5 н 0. 028 037 38 
6 E 0. 028 037 38 
7 Ë 0. 000 000 00 

情感 极 性 积分 的 结果 见 表 8-4. 
表 8-4 情感 极 性 积分 计算 结果 

序号 类 别 积 分 

1 FEX 0. 489 913 5 
2 中 性 0.391 930 8 
3 贬义 0. 118 155 6 


计算 情感 类 别 积分 的 R 语 句 如 下 : 


# 匹 配 词 库 : Ж 


fileScore.le=0 


for (і in 1:length (myfile.Words) ){ 


myfile.sentence.Word<-unlist (myfile.Words) 


myfile.sentence.Word<-as.list (myfile.sentence.Word) 


myfile.sentence.Word<-as.vector (myfile.sentence.Word) 


senScore=0 


for (j in 1:length(myfile.sentence.Word))í( 


x<-subset (mydict .le$ 强 度 , mydict.le$isJiš==myfile.sentence. 


Word) 


if (length (x)>0) (senScore=senScore+x) 


) 


print (i/length (myfile.Words)) 
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if (length (senScore)>0)(fileScore.le=fileScore.le+senScore } 
} 
# 匹 配 词 库 : 好 
filescore.ha=0 
for (і іп 1:length (туғі1е.Иогаѕ)) { 
myfile.sentence.Word<-unlist (myfile.Words) 
myfile.sentence.Word<-as.list (myfile.sentence.Word) 
myfile.sentence.Word<-as.vector (myfile.sentence.Word) 
senScore=0 
for (j in 1:length(myfile.sentence.Word))( 
x<-subset (mydict .ha$ 强 度 ,mydict .ha$ 词 语 ==myfile.sentence. 
Word) 
if (length (x)>0) (senScore=senScore+x) 
} 
print (i/length (myfile.Words)) 
if (length (senScore)>0)(fileScore.ha=fileScore.ha+senScore) 
) 
# 匹 配 词 库 : Ж 
fileScore.lu=0 
for (і in 1:length (myfile.Words) ){ 
myfile.sentence.Word<-unlist (myfile.Words) 
myfile.sentence.Word<-as.list (myfile.sentence.Word) 
myfile.sentence.Word<-as.vector (myfile.sentence.Word) 
senScore=0 
for (j in 1:length (myfile.sentence.Word)){ 
x< -subset (mydict .1u$ 强 度 ,，mydict .1u$ 词 语 ==myfile.sentence. 
Word) 
if (length (x)>0) {senScore=senScore+x} 
} 
print (i/length (myfile.Words)) 
if (length (senScore)>0)(fileScore.lu=fileScore.lu+senScore) 
} 
# 匹 配 词 库 : ХЕ 
fileScore.ai=0 
for (i in 1:length (myfile.Words)){ 
myfile.sentence.Word<-unlist (myfile.Words) 
myfile.sentence.Word<-as.list (myfile.sentence.Word) 


myfile.sentence.Word<-as.vector (myfile.sentence.Word) 
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senScore= 0 
for (j in 1:length(myfile.sentence.Word))( 
x<- subset (mydict .ai$ 强 度 ,mydict .ai$ 词 语 ==myfile.sentence. 
Word) 
if (length (x)>0) (senScore=senScore+x) 
} 
print (i/length (myfile.Words)) 
if (length (senScore)>0)(fileScore.ai=fileScore.ai+senScore) 
) 
# 匹 配 词 库 : I 
fileScore.ju=0 
for (i in 1:length(myfile.Words))( 
myfile.sentence.Word<-unlist (myfile.Words) 
myfile.sentence.Word<-as.list (myfile.sentence.Word) 
myfile.sentence.Word<-as.vector (myfile.sentence.Word) 
senScore=0 
for (j in 1:length(myfile.sentence.Word))( 
x<- subset (mydict.jus$ 强 度 ，mydict.jus$ 词 语 ==myfile.sentence. 
Word) 
if (length (x)>0) (senScore=senScore+x) 
) 
print (i/length (myfile.Words)) 
if (length (senScore)>0)(fileScore.ju=fileScore.ju+senScore) 
} 
# 匹 配 词 库 : Ж 
fileScore.wu=0 
for (і in 1:length (myfile.Words) ){ 
myfile.sentence.Word<-unlist (myfile.Words) 
myfile.sentence.Word<-as.list (myfile.sentence.Word) 
myfile.sentence.Word<-as.vector (myfile.sentence.Word) 
senScore=0 
for(j in 1:length(myfile.sentence.Word))( 
x<- subset (туадїс&.ни$%@ E, mydict.wu$isJiš==myfile.sentence. 
Word) 
if (length (x)>0) (senScore=senScore+x) 
} 
print (i/length (myfile.Words)) 


if (length (senScore)>0)(fileScore.wu=fileScore.wu+senScore) 
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} 
# 匹 配 词 库 : 惊 
fileScore.ji=0 
for (і in 1:length (myfile.Words) ){ 
myfile.sentence.Word<-unlist (myfile.Words) 
myfile.sentence.Word<-as.list (myfile.sentence.Word) 
myfile.sentence.Word<-as.vector (myfile.sentence.Word) 
senScore=0 
for (j in 1:length(myfile.sentence.Word))( 
x< -subset (mydict .ji$ 强 度 , mydict .ji$ 词 语 ==myfile.sentence. 
Word) 
if (length (x)>0) {senScore=senScore+x} 
} 
print (i/length (myfile.Words)) 
if (length (senScore)>0) {fileScore.ji=fileScore.ji+senScore} 
} 
# 计 算 情感 类 别 积分 
fileScore.le.pert<-fileScore.le/(fileScore.le+fileScore.ha+ 
fileScore.lu+fileScore.ai+fileScore.ju+fileScore.wu+fileScore. 
ji) 
fileScore.ha.pert<-fileScore.ha/(fileScore.le+fileScore.ha+ 
fileScore. lu+ fileScore.ai+fileScore.ju+ fileScore.wu+ fileScore. 
ji) 
fileScore.lu.pert<-fileScore.lu/ (fileScore.le+fileScore.ha+ 
fileScore. lu+ fileScore.ai+fileScore.ju+ fileScore.wu+ fileScore. 
ji) 
fileScore.ai.pert<-fileScore.ai/(fileScore.le+fileScore.ha+ 
fileScore. 10+ fileScore. ai + Ғі1еЅсоге. ји+ fileScore.wu+ fileScore. 
ji) 
fileScore.ju.pert<-fileScore.ju/(fileScore.le+fileScore.ha+ 
fileScore. 10+ fileScore.ai + fileScore.ju+ fileScore.wu+ fileScore. 
ji) 
fileScore.wu.pert<-fileScore.wu/ (fileScore.le+fileScore.ha+ 
fileScore.lu+fileScore.ai+fileScore.ju+fileScore.wu+fileScore. 
ji) 
fileScore.ji.pert<-fileScore.ji/(fileScore.le+fileScore.ha+ 
fileScore. lu+ Ғі1еЅсоге.аі + Ғі1еЅсоге. ји+ fileScore.wu+ fileScore. 
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计算 情感 极 性 积分 的 R 语 句 如 下 : 


ың Жа 
fileScore.P=0 


for (і in 1:length (myfile.Words) ){ 


myfile.sentence.Word<-unlist (myfile.Words) 
myfile.sentence.Word<-as.list (myfile.sentence.Word) 


myfile.sentence.Word<-as.vector(myfile.sentence.Word) 


senScore=0 
for (j in 1:length(myfile.sentence.Word))( 
x< - subset (mydict.p.Word$ 强 度 ,，mydict.p.Word$ 词 语 ==myfile. 
sentence.Word) 
if (length (x)>0) (senScore=senScore+x[1]) 
} 
print (i/length (myfile.Words)) 
if (length (senScore)>0) {fileScore.P=fileScore.P+senScore} 
} 
# 匹 配 贬义 词 库 
fileScore.N=0 
for (і in 1:length (myfile.Words) ){ 


myfile.sentence.Word<-unlist (myfile.Words) 
myfile.sentence.Word<-as.list (myfile.sentence.Word) 


myfile.sentence.Word<-as.vector (myfile.sentence.Word) 


senScore=0 
for (j in 1:length(myfile.sentence.Word))( 
x< - subset (тудісі.п.Погӣ$% Æ, mydict.n.Word$isJiš==myfile. 
sentence.Word) 
if (length (x)>0) (senScore=senScore+x[1]) 
} 
print (i/length (myfile.Words)) 
if (length (senScore)>0)(fileScore.N=fileScore.N+senScore) 
} 
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# 匹 配 中 性 词 库 
fileScore.M=0 


for (і in 1:length(myfile.Words))( 


myfile.sentence.Word<-unlist (myfile.Words) 
myfile.sentence.Word<-as.list (myfile.sentence.Word) 


myfile.sentence.Word<-as.vector (myfile.sentence.Word) 


senScore=0 
for (j in 1:length(myfile.sentence.Word))( 
x< - subset (mydict.m.Word$ 强 度 ,，mydict.m.Word$ 词 语 ==myfile. 
sentence.Word) 
if (length (х) >0) {senScore=senScore+x[1]} 
} 
print (i/length (myfile.Words)) 
if (length (senScore)>0)(fileScore.M=fileScore.M+senScore) 


) 


# 计 算 情 感 极 性 积分 

fileScore=0 

fileScore=fileScore.P - fileScore.N 

Print (fileScore) 

# 计 算 比 例 
fileScore.P.pert<-fileScore.P/(fileScore.P+fileScore .N+ 
fileScore.M) 

fileScore.M.pert<-fileScore.M/ (fileScore.P+fileScore .N+ 
fileScore.M) 

fileScore.N.pert<-fileScore.N/ (fileScore.P+fileScore .N+ 


fileScore.M) 


8.3.4 显示 结果 


小 肖 : 计算 情感 类 别 积分 和 情感 极 性 积分 的 R 语句 很 长 啊 。 
Miss 陈 : 虽然 代码 长 ,其 实 有 规律 可 循 。 你 仔细 看 可 以 发 现 ,计算 每 
一 类 情感 的 语句 基本 都 是 一 样 的 。 
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小 肖 : 那 我 得 睁 大 眼睛 仔细 看 看 。 
Miss Ж: 计算 完成 后 ,就 可 以 根据 分 数 计算 结果 绘制 条 形 图 ,让 情 
感 分 析 的 结果 更 加 直观 。 辞职 报告 的 情感 类 别 分 析 结 果 如 图 8-3 所 示 。 
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图 8-3 辞职 报告 的 情感 类 别 分 析 结果 


辞职 报告 的 情感 类 别 分 析 结果 绘图 的 R 语句 如 下 : 


# 形 成 数据 框 

filescore.frame<-data.frame (папе= с (" Ж", "好 ", "8", "R", "R", 
"Ж"," B£"), Score = с (fileScore. le. pert, fileScore. ha. pert, 
fileScore. lu. pert, fileScore. ai. pert, fileScore. ju. pert, 
fileScore.wu.pert,fileScore.ji.pert)) 

# 绘 图 

qplot (х= пате, у= Score, data= fileScore. frame, geom="bar", stat=" 
identity"v,xlab=" 情 感 ",yYlab=" 情 感 分 析 得 分 占 比 ",fil1=namevmain=" 辞 
职 报告 情感 类 别 分 析 结 果 ") 


辞职 报告 的 情感 极 性 分 析 结 果 如 图 8-4 所 示 。 
辞职 报告 的 情感 极 性 分 析 结 果 绘 图 的 R 语句 如 下 : 
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得 分 占 比 


贬义 中 性 
极 性 
ва ”辞职 报告 的 情感 极 性 分 析 结 果 


# 形 成 数据 框 

fileScore.frame<-data.frame (папе= с ("Æ X", "中 性 ", "贬义 ") ,Score 

=c(fileScore.P.pert,fileScore.M.pert,fileScore.N.pert)) 

# 绘 图 

qplot (х= name, у= Score, data= fileScore.frame, geom="bar", stat= 

"identity",xlab=" 极 性 ", ylab=" 得 分 占 比 ", fil1=name,main=" 辞 职 报告 

情感 极 性 分 析 结 果 ") 

到 这 步 秤 职 报告 的 情感 分 析 就 算 完成 了 ,分 析 结 果 已 可 以 在 实际 管 
理 中 应 用 。 

小 肖 : 这 种 文本 量化 分 析 技 术 和 其 他 的 数据 分 析 技 术 不 大 一 样 , 真 
是 让 人 大 开眼 界 , 没 想到 辞职 报告 还 可 以 这 样 分 析 , 一 篇 文章 也 能 进行 
量化 。 

Miss 陈 : 文本 分 析 技 术 是 数据 分 析 的 一 个 另类 领域 ,实际 上 用 途 广 
泛 。 比 如 ,网 络 和 与 情 分 析 ( 根 据 微 博 、 微 信 内 容 分 析 和 与 论 倾向 )、 文 章 内 容 


自动 推荐 (根据 用 户 喜 好 建立 预测 模型 ,主动 推送 用 户 感 兴趣 的 文章 ) 等 。 
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反而 对 于 我 们 人 力 资 源 管理 专业 领域 的 应 用 还 不 多 ,这 方面 需要 我 们 去 

人 力 资源 管理 数据 分 析 就 谈 到 这 里 吧 。 我 希望 你 们 能 明白 ,在 统计 
学 领域 有 许多 知识 .算法 .工具 可 以 应 用 到 我 们 人 力 资源 管理 的 实践 中 ， 
但 前 提 是 我 们 要 主动 学 习 这 方面 的 知识 , 懂 这 方面 的 技术 。 我 希望 以 后 
能 看 到 更 多 数据 分 析 技 术 应 用 到 人 力 资源 管理 中 来 ,促进 我 们 管理 水 平 
的 提升 。 

小 肖 : 明白 了 ,谢谢 经 理 ! 我 们 一 定 努 力学 习 数据 分 析 知 识 , 掌 握 相 
关 分 析 工 具 ,特别 是 重点 学 习 R 语 言 ,掌握 这 个 强大 的 分 析 工 具 。 


